数学のまとめノート

「確率分布(離散型)」とは

離散的に起こる事象その確率の分布を表現したもののこと。

確率分布

出現する値が $\{ x_1, \ldots, x_n \}$ であり, 各 $x_i$ が起こる

確率が $p_i \in [0,1]$ $(p_1+\cdots +p_n=1)$

であることを, $P(x_i) = p_i$ とかく.

確率変数

確率の関数 $P$ の変数を確率変数

といい, 変数の定義域は $\{ x_1, \ldots, x_n \}$ である. 以下, $X$ をこの確率分布に従う確率変数とする.

A. 期待値 $E[X]$

$\displaystyle E[X] = \sum_{i=1}^n x_i p_i$

B. 分散 $V[X]$ と標準偏差 $\sigma[X]$

  1. $\displaystyle V[X] =\sum_{i=1}^n (x_i - m)^2p_i$ $=E[(X-m)^2]$ $= E[X^2] - E[X]^2$
  2. $\displaystyle \sigma[X] = \sqrt{V[X]}$

確率変数の変換

関数 $f$ で 新しい確率変数

$Y=f(X)$

が定義できる. ただし, 確率関数 $P$ は

$P(f(x_i)) = p_i$

を満たすように改めて定義する.

C. 一次変換による変数変換

$Y=aX+b$ ならば $E[Y] = aE[X]+b$, $V[Y] = a^2V[X]$.

ポイント解説

記号

確率変数 $X$ が確率分布 $D$ に従うこと

を $X \sim D$ とかく。

確率分布

ヒストグラム等で可視化;

A

期待値は確率分布の中心を表す。

B

$m=E[X]$ とした。分散と標準偏差は確率分布の散らばりを表す。

確率変数の変換

$y_i = f(x_i)$ のとき, $P(y_i) = P(x_i) = p_i$ であり, 変数変換しても確率の値は変えないことに注意する。

C

$y_i = a x_i +b$ として $E[Y]$ と $V[Y]$ を計算することで導出できる。

発展

確率(分布)はコルモゴロフの公理で定義する:

  1. 各事象から確率を定める関数がある
  2. 全ての事象の確率は $1$ である
  3. 互いに排反な事象全体の確率は各事象の確率の和である(加算加法性)

確率分布の例

確率分布記号決定量特徴量検定推定量簡単な導出
正規分布$N(\mu, \sigma^2)$平均値,分散$E(X) = \mu$
$V(X) = \sigma^2$
標本平均$\bar{X}$(の母分散による標準化)$$\frac{\bar{X} - \mu}{\sigma/\sqrt{n}}$$
t分布$t(k)$自由度 $k$(サンプル数-1)$E(X) = 0$
$V(X) = \frac{k}{k-2}$
標本平均の不偏分散による標準化 $T$$$\frac{\bar{X} - \mu}{s/\sqrt{n}}$$
カイ2乗分布$\chi^2(k)$自由度 $k$$E(X) = k$
$V(X) = 2k$
不偏分散 $s^2$の線型倍$\sum_{i=1}^kZ_i^2$
$Z_i \sim N(0,1)$
$Z_i = \frac{X_i-\bar{X}}{\sigma}$
F分布$F(p,q)$自由度 $p$, $q$$E(X) = \frac{q}{q-2}$
$V(X)$ は複雑
不偏標準偏差の比
分散分析にも利用される
$\frac{Z_1/p}{Z_2/q}$
$Z_1 \sim \chi(p)$
$Z_2 \sim \chi(q)$
二項分布$B(n,p)$
[離散分布]
試行回数,成功確率 $E(X) = np$
$V(X) = q$

期待値の理解

データの分析(数学1)で学習する「平均値」「分散(標準偏差)」と、統計的な推測(数学B)で学習する「期待値」「分散(標準偏差)」が同じものであることを確かめます。

平均値と期待値、分散の公式

数学1では平均値 $m$ と分散 $s^2$ を学びます。

$$m = \frac{1}{n} (x_1 + \cdots + x_n)$$

$$s^2 =\frac{1}{n} \{ (x_1 - m)^2 + \cdots + (x_n-m)^2 \}$$

ここで、$[x_1, \ldots, x_n]$ はデータで、$n$ はデータの大きさです。

さて、数学Bでは期待値 $\mu$ と分散 $\sigma^2$ を学びます。

$$\mu = x_1p_1 + \cdots + x_np_n$$

$$\sigma^2=(x_1 - m)^2p_1 + \cdots + (x_n-m)^2p_n$$

ここで、$x_1, \ldots, x_n$ は確率変数が取りうる値で、$p_1, \ldots, p_n$ は、おのおのの確率です。

これらの公式が同じものであることを確認することが今回の目標です。

$n$ と $x_k(1\leqq k \leqq n)$ が公式間で意味が変わっているので、この違いが分かればバッチリです!

2つの単元を結びつけるために、ヒストグラムが活躍します。

データの分析と統計の違い

データを度数分布(ヒストグラム)として整理したものを頻度として考えると確率分布ができます。

データの例

次のデータを使って確率分布の考えを整理します。

$D = [150, 150, 160, 160, 160, 160, 160, 165, 165, 170]$

データの分析の計算

データ $D$ の度数分布表とヒストグラムを作成しました。

データ $D$ の度数分布表

階級度数
150$2$
160$5$
165$2$
170$1$
合計$10$
$D$の度数分布表

データ $D$ のヒストグラム

データ $D$ の平均値と分散

この度数分布表からデータの分析の「平均値 $m$ 」と「分散 $s^2$ 」を計算しましょう。

$\begin{aligned}
m & \displaystyle = \frac{1}{10}(150 \times 2 + 160 \times 5 + 165 \times 2 + 170 \times 1) \\
&= 160
\end{aligned}$

$\begin{aligned}
s^2 & \displaystyle = \frac{1}{10}((-10)^2 \times 2 + 0 \times 5 + 5^2 \times 2 + 10^2 \times 1) \\
&= 35
\end{aligned}$

この値と、統計的な推測で計算する期待値と分散を比較してみます。

統計の計算

さきほどの度数分布表を頻度表に変形しましょう。頻度は、そのまま確率と思ってOKです。

頻度のヒストグラムは確率分布表になります。

データ $D$ の頻度表

階級頻度
150$0.2$
160$0.5$
165$0.2$
170$0.2$
合計$1$
$D$の頻度表

データ $D$ の確率分布表

変数150160165170
確率$\displaystyle \frac{2}{10}$$\displaystyle \frac{5}{10}$$\displaystyle \frac{2}{10}$$\displaystyle \frac{1}{10}$
$X$の確率分布

この頻度表および、棒グラフが意味するものが「確率分布」です。

データ $D$ の期待値と分散

確率分布から「期待値 $\mu$ 」と「分散 $\sigma^2$ 」を計算しましょう。

$\begin{aligned}
\mu &= \displaystyle 150 \times \frac{2}{10} + 160 \times \frac{5}{10} + 165 \times \frac{2}{10} + 170 \times \frac{1}{10} \\
&= 160
\end{aligned}$

$\begin{aligned}
\sigma^2 & \displaystyle = (-10)^2 \times \frac{2}{10} + 0 \times \frac{5}{10} + 5^2 \times \frac{2}{10} + 10^2 \times \frac{1}{10} \\
&= 35
\end{aligned}$

2つの違いの整理

度数分布表から平均と分散を計算した結果と、確率分布から期待値と分散を計算した結果はピッタリ一致しました。

お分かりだと思いますが、データの分析のときの $n$ 個のうち、重複するものをセットにした後の個数が統計の公式の $n$ になっています。

そして、2つの計算の違いはデータの大きさの $10$ を割る順序が違うということだけです。

同じ値が複数存在するデータを度数分布表に整理して頻度を考えたものが最も基本的な確率分布といえます。

コメントを残す