相関係数 $r$ は $\cos \theta$ である
相関係数 $r$ が, データから定義される2つのベクトルのなす角 $\theta$ に関する $\cos \theta$ であることを理解してみよう。
命題
2つの変量
$x=[x_1, \ldots, x_n]$
$y=[y_1, \ldots, y_n]$
について, $\bar{x}$ と $\bar{y}$ をそれぞれの平均値とし, また $x$ と $y$ の相関係数を $r$ とする.
2本のベクトル
$\vec{x}=(x_1 - \bar{x}, \ldots, x_n - \bar{x})$
$\vec{y}=(y_1 - \bar{y}, \ldots, y_n - \bar{y})$
を定義し, $\vec{x}$ と $\vec{y}$ のなす角度を $\theta$ とする.
このとき,
$r = \cos \theta$
が成り立つ.
※ $n$ 次元ベクトル $\vec{a}$ と $\vec{b}$ の内積を $\vec{a} \cdot \vec{b}=|\vec{a}| |\vec{b}|\cos \theta$ と定める.
証明.
内積の定義より
$\displaystyle \cos \theta =\frac{\vec{x} \cdot \vec{y}}{|\vec{x}| |\vec{y}|} =\frac{\displaystyle \frac{1}{n} \vec{x} \cdot \vec{y}}{\displaystyle \frac{1}{\sqrt{n}}|\vec{x}| \times \frac{1}{\sqrt{n}}|\vec{y}|}$
である.
この式の分子はデータ $x$ と $y$ の共分散を表す.
$\displaystyle \displaystyle \frac{1}{n} \vec{x} \cdot \vec{y}$ $\displaystyle =\frac{(x_1-\bar{x})(y_1-\bar{y})+\cdots + (x_n-\bar{x})(y_n-\bar{y})}{n}$
この式の分母はデータ $x$ と $y$ のそれぞれの標準偏差を表す.
$\displaystyle \frac{1}{\sqrt{n}} |\vec{x}|$ $\displaystyle =\sqrt{\frac{(x_1-\bar{x})^2+\cdots + (x_n-\bar{x})^2}{n}}$
$\displaystyle \frac{1}{\sqrt{n}} |\vec{y}|$ $\displaystyle =\sqrt{\frac{(y_1-\bar{y})^2+\cdots + (y_n-\bar{y})^2}{n}}$
共分散をそれぞれの標準偏差で割ったものが相関係数であった.
ゆえに, データ $x$ と $y$ について,
$r =\cos \theta$
が成立する.
例えば,
$x$ $=[1,3,2]$
$y$ $=[1,2,3]$
ならば,
$\vec{x}$ $=(-1,1,0)$
$\vec{y}$ $=(-1,0,1)$
です。
これらのベクトルの成す角度は $\displaystyle \frac{\pi}{3}$ で, 実際に相関係数は
$\displaystyle r = \cos \frac{\pi}{3}$ $= 0.5$
です。