データの標準化 $\displaystyle z = \frac{x-\bar{x}}{s_x}$

データ $x$ の各値を $y=ax+b$ によって変換したあとのデータの分散 $s_{y}^2$ が $s_{y}^2 = a^2s_{x}^2$ であることを示してみよう。

定義

データ $x$ について, 平均値を $0$, 標準偏差を $1$ になるように変換することをデータの標準化という.

命題

データ $x$ について, 変換

$\displaystyle z = \frac{x-\bar{x}}{s_x}$

は標準化である. ただし, データ $x$ の平均値を $\bar{x}$, 標準偏差を $s_x$ とする.

証明.

データ $x$ の一次変換 $ax+b$ による平均値と標準偏差の変化は

$a\bar{x} + b$

$|a|s_x$

であった. 今回の変換については

$\displaystyle z = \frac{x-\bar{x}}{s_x}$ $\displaystyle = \frac{1}{s_x}x + \frac{-\bar{x}}{s_x}$

であるから, 平均値と標準偏差は次のようになる.

$\displaystyle \bar{z}= \frac{1}{s_x}\bar{x} + \frac{-\bar{x}}{s_x}$ $=0$

$\displaystyle s_{z}= \frac{1}{s_x} \cdot s_{x}$ $=1$

ゆえに, $\displaystyle z = \frac{x-\bar{x}}{s_x}$ は標準化である.

たとえば,

$x=[0, 0, 2,2]$

のとき,

$\bar{x} = 1$,
$s_x = 1$

です。変換

$\displaystyle z=x-1$

と変形すると,

$z=[-1, -1, 1,1]$

になります。

この平均値は $0$ で, 標準偏差は $1$ のままです。

コメントを残す