データの一次変換による共分散の変化
データ $x$ と $y$ のそれぞれの各値を $x'=ax+b$, $y'=cy+d$ によって変換したあとのデータの共分散 $s_{x'y'}$ が $acs_{xy}$ であることを示してみよう。
性質
データ $x=[x_1, x_2, \cdots, x_n]$ と $y=[y_1, y_2, \cdots, y_n]$ について, 共分散を $s_{xy}$ とする.
データ $x$ の各値 $x_k$ $(1 \leq k \leq n)$ を $x_k'=ax_k + b$ と変換したあとのデータを $x'$ とする. また, データ $y$ の各値 $y_k$ $(1 \leq k \leq n)$ を $y_k'=cy_k + d$ と変換したあとのデータを $y'$ とする.
データ $x'$ と $y'$ の共分散を $s_{x'y'}$ とする.
このとき, $s_{x'y'}=acs_{xy}$ が成り立つ.
証明.
$x$ と $y$ の平均値を $\bar{x}$ と $\bar{y}$ とする.
$\bar{x'} = a\bar{x} + b$
$\bar{y'} = c\bar{y} + d$
データ $x$ と $y$ の共分散の定義式を計算するために $x_k'$ と $y_k'$ の偏差を求めると,
$x_k'-\bar{x'}$ $=(ax_k+b)-(a\bar{x}+b)$ $=a(x_k-\bar{x})$
$y_k'-\bar{y'}$ $=(cy_k+d)-(c\bar{y}+d)$ $=c(y_k-\bar{y})$
である.
$s_{x'y'}$
$\displaystyle =\frac{(x_1'-\bar{x'})(y_1'-\bar{y'}) + \cdots + (x_n'-\bar{x'})(y_n'-\bar{y'})}{n}$
$\displaystyle =\frac{ac(x_1-\bar{x})(y_1-\bar{y}) + \cdots + ac(x_n-\bar{x})(y_n-\bar{y})}{n}$
$\displaystyle =ac\frac{(x_1-\bar{x})(y_1-\bar{y}) + \cdots + (x_n-\bar{x})(y_n-\bar{y})}{n}$
$=acs_{xy}$.
ゆえに, $s_{x'y'}=acs_{xy}$ が得られた.
たとえば,
$x=[1, 2, 3]$
のとき, $y=2x+1$ と変形すると,
$x'=[3, 5, 7]$
になります。
$y=[2, 4, 6]$
のとき, $y'=-x+2$ と変形すると,
$y'=[0, -2, -4]$
になります。
$\displaystyle s_{xy}=\frac{4}{3}$,
$\displaystyle s_{x'y'}=-\frac{8}{3}$
なので,
$s_{x'y'}=2 \cdot (-1) \cdot s_{xy}$
が成り立っています。