相関係数 $r$ は $\cos \theta$ である

相関係数 $r$ が, データから定義される2つのベクトルのなす角 $\theta$ に関する $\cos \theta$ であることを理解してみよう。

命題

2つの変量

$x=[x_1, \ldots, x_n]$
$y=[y_1, \ldots, y_n]$

について, $\bar{x}$ と $\bar{y}$ をそれぞれの平均値とし, また $x$ と $y$ の相関係数を $r$ とする.

2本のベクトル

$\vec{x}=(x_1 - \bar{x}, \ldots, x_n - \bar{x})$
$\vec{y}=(y_1 - \bar{y}, \ldots, y_n - \bar{y})$

を定義し, $\vec{x}$ と $\vec{y}$ のなす角度を $\theta$ とする.

このとき,

$r = \cos \theta$

が成り立つ.

※ $n$ 次元ベクトル $\vec{a}$ と $\vec{b}$ の内積を $\vec{a} \cdot \vec{b}=|\vec{a}| |\vec{b}|\cos \theta$ と定める.

証明.

内積の定義より

$\displaystyle \cos \theta =\frac{\vec{x} \cdot \vec{y}}{|\vec{x}| |\vec{y}|} =\frac{\displaystyle \frac{1}{n} \vec{x} \cdot \vec{y}}{\displaystyle \frac{1}{\sqrt{n}}|\vec{x}| \times \frac{1}{\sqrt{n}}|\vec{y}|}$

である.

この式の分子はデータ $x$ と $y$ の共分散を表す.

$\displaystyle \displaystyle \frac{1}{n} \vec{x} \cdot \vec{y}$ $\displaystyle =\frac{(x_1-\bar{x})(y_1-\bar{y})+\cdots + (x_n-\bar{x})(y_n-\bar{y})}{n}$

この式の分母はデータ $x$ と $y$ のそれぞれの標準偏差を表す.

$\displaystyle \frac{1}{\sqrt{n}} |\vec{x}|$ $\displaystyle =\sqrt{\frac{(x_1-\bar{x})^2+\cdots + (x_n-\bar{x})^2}{n}}$

$\displaystyle \frac{1}{\sqrt{n}} |\vec{y}|$ $\displaystyle =\sqrt{\frac{(y_1-\bar{y})^2+\cdots + (y_n-\bar{y})^2}{n}}$

共分散をそれぞれの標準偏差で割ったものが相関係数であった.

ゆえに, データ $x$ と $y$ について,

$r =\cos \theta$

が成立する.

例えば,

$x$ $=[1,3,2]$
$y$ $=[1,2,3]$

ならば,

$\vec{x}$ $=(-1,1,0)$
$\vec{y}$ $=(-1,0,1)$

です。

これらのベクトルの成す角度は $\displaystyle \frac{\pi}{3}$ で, 実際に相関係数は

$\displaystyle r = \cos \frac{\pi}{3}$ $= 0.5$

です。

コメントを残す