- 目次
- 理解
- コード
- まとめ
【理解】t分布とは
t分布の前提について
ウィリアム・ゴセット(student)の研究
t検定について
標本数が小さい。母分散が分からない。
母集団の正規性の仮定は必要(ヒストグラムを書いてみる)
お菓子の糖質の表記が0.1gであった。無作為に20個のお菓子で調査した結果,実際の糖質の平均は0.2gであった。統計的な差はあるのだろうか?
$$t = \frac{0.2 - 0.1}{SE} = $$
このときの p値(両側検定)は,??%である。
なお,Excel では,2*(1-NORM.S.DIST(I3,TRUE)) と計算した。
A群のサンプル数が $n_a$ で平均値が $\mu_A$, B群のサンプル数が $n_B$ で平均値が $\mu_B$ とする。
t分布に従う確率変数の差について,標準誤差を次のように定めれば,自由度 $n_A + n_B - 2$ のt分布になる。
標準誤差 SE
$$SE = \sqrt{\frac{(n_A - 1)s_A^2 + (n_B-1) s_B^2}{n_A + n_B -2}} \times \sqrt{\frac{1}{n_A} + \frac{1}{n_b}}$$
サンプル数が $n$ のデータで,差に関するデータを $d_i$ とする。
差の標本平均値が $d$ であれば,標準誤差 $SE = s / \sqrt{n}$ を利用して,次の値でt検定できる。
$$t = \frac{d_i - 0}{SE}$$
【コード】Pythonでt分布の計算
t分布の表示
t分布と正規分布の比較
【まとめ】ポイントノート
「t分布」とは
サンプル数が少ないとき正規分布の代わりに利用する確率分布のこと。
準備
正規分布 $N(\mu, \sigma^2)$ からの独立な標本 $X_1$, $\ldots$, $X_n$ の標本平均を $\bar{X}$, 不偏分散を $s^2$ とする.
A. 標本平均を利用した確率変数
確率変数 $T$ は自由度 $n-1$ のt分布に従う.
$\displaystyle T = \frac{\bar{X} - \mu}{s/\sqrt{n}}$
B. 確率密度関数
$\displaystyle f(t) = \frac{\Gamma(\frac{n}{2})}{\sqrt{(n-1)\pi} \ \Gamma(\frac{n-1}{2}) } \left( 1 + \frac{t^2}{n-1} \right)^{-\frac{n}{2}}$
C. t検定の種類
- 一標本t検定
- 対応のある独立ニ標本t検定
- 独立ニ標本t検定(スチューデントのt検定)
- ウェルチのt検定
ポイント解説
標本平均
$\displaystyle \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i$
不偏分散
$\displaystyle s^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2$
イメージ
標本数が大きいとき, t分布と正規分布は近似できます。


C
母平均を調査するときで, 母分散が不明なときにt分布が使えます。
(2) 標本が対で, それぞれの母集団が正規分布に従う場合
(3) 標本が独立で、比較する群の分散が等しいと仮定できる場合
(4) 標本が独立で、等分散性が仮定できない場合




