データの標準化 $\displaystyle z = \frac{x-\bar{x}}{s_x}$
データ $x$ の各値を $y=ax+b$ によって変換したあとのデータの分散 $s_{y}^2$ が $s_{y}^2 = a^2s_{x}^2$ であることを示してみよう。
定義
データ $x$ について, 平均値を $0$, 標準偏差を $1$ になるように変換することをデータの標準化という.
命題
データ $x$ について, 変換
$\displaystyle z = \frac{x-\bar{x}}{s_x}$
は標準化である. ただし, データ $x$ の平均値を $\bar{x}$, 標準偏差を $s_x$ とする.
証明.
データ $x$ の一次変換 $ax+b$ による平均値と標準偏差の変化は
$a\bar{x} + b$
$|a|s_x$
であった. 今回の変換については
$\displaystyle z = \frac{x-\bar{x}}{s_x}$ $\displaystyle = \frac{1}{s_x}x + \frac{-\bar{x}}{s_x}$
であるから, 平均値と標準偏差は次のようになる.
$\displaystyle \bar{z}= \frac{1}{s_x}\bar{x} + \frac{-\bar{x}}{s_x}$ $=0$
$\displaystyle s_{z}= \frac{1}{s_x} \cdot s_{x}$ $=1$
ゆえに, $\displaystyle z = \frac{x-\bar{x}}{s_x}$ は標準化である.
たとえば,
$x=[0, 0, 2,2]$
のとき,
$\bar{x} = 1$,
$s_x = 1$
です。変換
$\displaystyle z=x-1$
と変形すると,
$z=[-1, -1, 1,1]$
になります。
この平均値は $0$ で, 標準偏差は $1$ のままです。