データの一次変換による共分散の変化

データ $x$ と $y$ のそれぞれの各値を $x'=ax+b$, $y'=cy+d$ によって変換したあとのデータの共分散 $s_{x'y'}$ が $acs_{xy}$ であることを示してみよう。

性質

データ $x=[x_1, x_2, \cdots, x_n]$ と $y=[y_1, y_2, \cdots, y_n]$ について, 共分散を $s_{xy}$ とする.

データ $x$ の各値 $x_k$ $(1 \leq k \leq n)$ を $x_k'=ax_k + b$ と変換したあとのデータを $x'$ とする. また, データ $y$ の各値 $y_k$ $(1 \leq k \leq n)$ を $y_k'=cy_k + d$ と変換したあとのデータを $y'$ とする.

データ $x'$ と $y'$ の共分散を $s_{x'y'}$ とする.

このとき, $s_{x'y'}=acs_{xy}$ が成り立つ.

証明.

$x$ と $y$ の平均値を $\bar{x}$ と $\bar{y}$ とする.

$\bar{x'} = a\bar{x} + b$

$\bar{y'} = c\bar{y} + d$

データ $x$ と $y$ の共分散の定義式を計算するために $x_k'$ と $y_k'$ の偏差を求めると,

$x_k'-\bar{x'}$ $=(ax_k+b)-(a\bar{x}+b)$ $=a(x_k-\bar{x})$

$y_k'-\bar{y'}$ $=(cy_k+d)-(c\bar{y}+d)$ $=c(y_k-\bar{y})$

である.

$s_{x'y'}$

$\displaystyle =\frac{(x_1'-\bar{x'})(y_1'-\bar{y'}) + \cdots + (x_n'-\bar{x'})(y_n'-\bar{y'})}{n}$
$\displaystyle =\frac{ac(x_1-\bar{x})(y_1-\bar{y}) + \cdots + ac(x_n-\bar{x})(y_n-\bar{y})}{n}$
$\displaystyle =ac\frac{(x_1-\bar{x})(y_1-\bar{y}) + \cdots + (x_n-\bar{x})(y_n-\bar{y})}{n}$
$=acs_{xy}$.

ゆえに, $s_{x'y'}=acs_{xy}$ が得られた.

たとえば,

$x=[1, 2, 3]$

のとき, $y=2x+1$ と変形すると,

$x'=[3, 5, 7]$

になります。

$y=[2, 4, 6]$

のとき, $y'=-x+2$ と変形すると,

$y'=[0, -2, -4]$

になります。

$\displaystyle s_{xy}=\frac{4}{3}$,
$\displaystyle s_{x'y'}=-\frac{8}{3}$

なので,

$s_{x'y'}=2 \cdot (-1) \cdot s_{xy}$

が成り立っています。

コメントを残す