【理解】確率分布(離散型)の数学的解説

確率分布と確率変数について

確率分布

値 $X$$x_1$$\cdots$$x_n$
確率 $P$$p_1$$\cdots$$p_n$$1$

離散的な確率分布 $S$ と確率変数 $X$ の定義を学んでみよう!

定義

確率分布 $S$ は起こりうる値とその確率をセットにしたものである。

$1 \leqq i \leqq n$ とする。離散的な確率分布は, 起こり得る値を $x_i$, その確率を $p_i \in [0,1]$ とすると, 次の表で表すことができる。

$x_1$$\cdots$$x_n$
確率$p_1$$\cdots$$p_n$$1$
確率分布 $S$ の表

なお, $p_1+\ldots +p_n = 1$, $0 \leqq p_i \leqq 1$ を満たす。

集合 $\{ x_1, \ldots, x_n \}$ からそれぞれの確率の値を取る確率関数 $P$ の変数 $X$ を(離散的な)確率変数という。このとき, $P(X=x_i) = p_i$ と表記する。

コインを1枚投げたときの表の枚数を確率変数 $X$ とする確率分布は

$X$$0$$1$
確率$\displaystyle \frac{1}{2}$$\displaystyle \frac{1}{2}$$1$

という表であり、

$\displaystyle P(X=0)= \frac{1}{2}$

$\displaystyle P(X=1)= \frac{1}{2}$

である。

$X$ を確率変数といいます。

$P(X=x_i) = p_i$ $(1 \leqq i \leqq n)$ という書き方をします。

Probability…確率

確率変数の統計量について

期待値$E[X]$, 分散 $V[X]$, 標準偏差 $\sigma[X]$ の定義を整理しましょう。

$E[X] = x_1p_1 + \cdots + x_np_n$

離散的な場合で, 統計量である期待値 $E[X]$ の定義を学んでみよう!

定義

次の $E[X]$ を離散的な確率変数 $X$ の期待値という:$$E[X] := x_1 p_1 + \cdots + x_n p_n.$$

ここで確率変数 $X$ は, $1 \leqq i \leqq n$ について $P(X = x_i) =p_i$ を満たすものとする。

$X$$x_1$$\cdots$$x_n$
確率$p_1$$\cdots$$p_n$$1$
確率分布

次の確率分布の場合

$X$$1$$2$$3$
確率$\displaystyle \frac{1}{4}$$\displaystyle \frac{1}{2}$$\displaystyle \frac{1}{4}$$1$

4回試行した結果として $\{ 1, \ 2, \ 2, \ 3 \}$ となることが最も多い。

このデータの平均値

$\displaystyle \frac{1 + 2 \times 2 + 3}{4}$

こそが期待値

$\displaystyle 1 \cdot \frac{1}{4} + 2 \cdot \frac{2}{4} + 3 \cdot \frac{1}{4}$

であり, $E[X]=2$ である。

$V[X] = (x_1-\mu)^2p_1 + \cdots + (x_n-\mu)^2p_n$

離散的な場合で, 統計量である分散 $V[X]$ の定義を学んでみよう!

定義

次の $V[X]$ を離散的な確率変数 $X$ の分散という:$$V[X] = (x_1-\mu)^2p_1 + \cdots + (x_n-\mu)^2p_n$$

ただし, $\mu$ を確率変数 $X$ の期待値 $E[X]$ とする。

ここで確率変数 $X$ は, $1 \leqq i \leqq n$ について $P(X = x_i) =p_i$ を満たすものとする。

$X$$x_1$$\cdots$$x_n$
確率$p_1$$\cdots$$p_n$$1$
確率分布

次の確率分布の場合

$X$$1$$2$$3$
確率$\displaystyle \frac{1}{4}$$\displaystyle \frac{1}{2}$$\displaystyle \frac{1}{4}$$1$

この平均(期待値)は $2$ である。

この分散は

$\displaystyle (1-2)^2 \cdot \frac{1}{4}$ $\displaystyle + (2-2)^2 \cdot \frac{2}{4}$ $\displaystyle + (3-2)^2 \cdot \frac{1}{4}$

であり,

$\displaystyle V[X]=\frac{1}{2}$

である。

$\sigma[X] = \sqrt{V[X]}$

統計量である標準偏差 $\sigma[X]$ の定義を学んでみよう!

定義(標準偏差 $\sigma[X]$)

$\sigma[X] = \sqrt{V[X]}$

なお, 確率変数 $X$ の分散を $V[X]$ とする。

次の確率分布の場合

$X$$1$$2$$3$
確率$\displaystyle \frac{1}{4}$$\displaystyle \frac{1}{2}$$\displaystyle \frac{1}{4}$$1$

この分散は $0.5$ である。

この標準偏差は

$\sqrt{0.5} = 0.7071 \cdots$

である。

Column. 期待値と平均値の違い

データの分析(数学1)で学習する「平均値」「分散(標準偏差)」と、統計的な推測(数学B)で学習する「期待値」「分散(標準偏差)」が同じものであることを確かめます。

統計の期待値とデータの分析の平均値の違い

平均値と期待値、分散の公式

データの分析の公式

数学1では平均値 $m$ と分散 $s^2$ を学びます。

$$m = \frac{1}{n} (x_1 + \cdots + x_n)$$

$$s^2 =\frac{1}{n} \{ (x_1 - m)^2 + \cdots + (x_n-m)^2 \}$$

ここで、$[x_1, \ldots, x_n]$ はデータで、$n$ はデータの大きさです。

統計の公式

さて、数学Bでは期待値 $\mu$ と分散 $\sigma^2$ を学びます。

$$\mu = x_1p_1 + \cdots + x_np_n$$

$$\sigma^2=(x_1 - \mu)^2p_1 + \cdots + (x_n-\mu)^2p_n$$

ここで、$x_1, \ldots, x_n$ は確率変数が取りうる値で、$p_1, \ldots, p_n$ は、おのおのの確率です。

公式の違いの注意点

これらの公式が同じものであることを確認することが今回の目標です。

$n$ と $x_k(1\leqq k \leqq n)$ が公式間で意味が変わっているので、この違いが分かればバッチリです!

2つの単元の公式を結びつけるために、ヒストグラムが活躍します。

データの分析の単元での計算

データを度数分布(ヒストグラム)として整理したものを頻度として考えると確率分布ができます。

データの例

次のデータを使って確率分布の考えを整理します。

$D = [150, 150, 160, 160, 160, 160, 160, 165, 165, 170]$

データの分析の計算

データ $D$ の度数分布表とヒストグラムを作成しました。

データ $D$ の度数分布表
階級度数
150$2$
160$5$
165$2$
170$1$
合計$10$
$D$の度数分布表
データ $D$ のヒストグラム
データ $D$ の平均値と分散

この度数分布表からデータの分析の「平均値 $m$ 」と「分散 $s^2$ 」を計算しましょう。

$\begin{aligned}
m & \displaystyle = \frac{1}{10}(150 \times 2 + 160 \times 5 + 165 \times 2 + 170 \times 1) \\
&= 160
\end{aligned}$

$\begin{aligned}
s^2 & \displaystyle = \frac{1}{10}((-10)^2 \times 2 + 0 \times 5 + 5^2 \times 2 + 10^2 \times 1) \\
&= 35
\end{aligned}$

この値と、統計的な推測で計算する期待値と分散を比較してみます。

統計の計算

さきほどの度数分布表を頻度表に変形しましょう。頻度は、そのまま確率と思ってOKです。

頻度のヒストグラムは確率分布表になります。

データ $D$ の頻度表
階級頻度
150$0.2$
160$0.5$
165$0.2$
170$0.2$
合計$1$
$D$の頻度表
データ $D$ の確率分布表
変数150160165170
確率$\displaystyle \frac{2}{10}$$\displaystyle \frac{5}{10}$$\displaystyle \frac{2}{10}$$\displaystyle \frac{1}{10}$
$X$の確率分布

この頻度表および、棒グラフが意味するものが「確率分布」です。

データ $D$ の期待値と分散

確率分布から「期待値 $\mu$ 」と「分散 $\sigma^2$ 」を計算しましょう。

$\begin{aligned}
\mu &= \displaystyle 150 \times \frac{2}{10} + 160 \times \frac{5}{10} + 165 \times \frac{2}{10} + 170 \times \frac{1}{10} \\
&= 160
\end{aligned}$

$\begin{aligned}
\sigma^2 & \displaystyle = (-10)^2 \times \frac{2}{10} + 0 \times \frac{5}{10} + 5^2 \times \frac{2}{10} + 10^2 \times \frac{1}{10} \\
&= 35
\end{aligned}$

2つの単元の違いの整理

度数分布表から平均と分散を計算した結果と、確率分布から期待値と分散を計算した結果はピッタリ一致しました。

データの分析のときの $n$ 個のうち、重複するものをセットにした後の個数が統計の公式の $n$ になっています。

そして、2つの単元での計算の違いはデータの大きさの $10$ を割る順序が違うということだけです。

同じ値が複数存在するデータを度数分布表に整理して頻度を考えたものが確率分布です。

$V[X] = E[X^2]-E[X]^2$

分散 $V[X]$ が期待値を使って $E[X^2]-E[X]^2$ で表されることを証明してみよう。

公式

$X$ を確率変数とする.

$V[X] = E[X^2] - E[X]^2$

証明.

確率変数 $X$ の取りうる値を $x_1, \ldots, x_n$ とし, それぞの確率を $p_1, \ldots, p_n$ とする. なお, $\displaystyle \sum_{i=1}^n p_i=1$ である.

分散 $V[X]$ と期待値 $E[X]$ と $E[X^2]$ の定義を整理する. なお, $\mu = E[X]$ とする.

$\displaystyle V[X] =\sum_{i=1}^n (x_i-\mu)^2p_i$

$\displaystyle E[X] =\sum_{i=1}^n x_i p_i$

$\displaystyle E[X^2] =\sum_{i=1}^n x_i^2 p_i$

分散の定義を計算して, 公式を導く.

$(x_i-\mu)^2$ $=x_i^2 - 2\mu x_i + \mu^2$ より,

$\begin{aligned}
&V[X] \\
\displaystyle &=\sum_{i=1}^n (x_i^2 - 2\mu x_i + \mu^2)p_i \\ &= \sum_{i=1}^n x_i^2 p_i -2 \mu \sum_{i=1}^n x_ip_i + \mu^2 \sum_{i=1}^n p_i \\
&= E[X^2] -2 \mu E[X] + \mu^2 \cdot 1.
\end{aligned}$

$\mu = E[X]$ より, 上式は $E[X^2] -2 E[X] \cdot E[X] + E[X]^2$ $=E[X^2]-E[X]^2$ となる.

ゆえに, $V[X^2] = E[X^2]-E[X]^2$ である.

確率分布が

$X$$1$$2$
$X^2$$1$$4$
確率$\displaystyle \frac{1}{2}$$\displaystyle \frac{1}{2}$

のとき,

$E[X]$ $\displaystyle =1 \cdot \frac{1}{2}$ $\displaystyle +2\cdot \frac{1}{2}$ $\displaystyle =\frac{3}{2}$.

$E[X^2]$ $\displaystyle =1^2 \cdot \frac{1}{2}$ $\displaystyle +2^2\cdot \frac{1}{2}$ $\displaystyle =\frac{5}{2}$.

よって, $E[X^2]-E[X]^2$ $\displaystyle =\frac{5}{2} - \left(\frac{3}{2} \right)^2$ $\displaystyle =\frac{1}{4}$.

また, $V[X]$ $\displaystyle =\left(1 - \frac{3}{2} \right)^2 \cdot \frac{1}{2}$ $\displaystyle +\left(2 - \frac{3}{2} \right)^2 \cdot \frac{1}{2}$ $\displaystyle =\frac{1}{8}+ \frac{1}{8}$ $\displaystyle =\frac{1}{4}$.

になります。

確率変数の変換について

確率変数 $X$ を, $aX+b$ と変換したときの期待値, 分散, 標準偏差の公式を整理します。

$E[aX+b] = aE[X]+b$

確率変数 $aX+b$ の期待値が $aE[X] + b$ で表されることを理解してみよう。

公式

$X$ を確率変数, $a$, $b$ を定数とすると,

$E[aX+b] = aE[X]+b$

が成り立つ.

証明.

確率変数 $X$ に関する期待値の定義から公式を計算する.

確率変数 $X$ の取りうる値を $x_1, \ldots, x_n$ とし, それぞの確率を $p_1, \ldots, p_n$ とする. なお, $p_1 + \cdots + p_n =1$ である.

$\displaystyle E[X] =\sum_{i=1}^n x_ip_i$

確率変数 $aX+b$ の取りうる値は $ax_1 + b$, $\ldots$, $ax_n+b$ であり, この期待値は

$\displaystyle E[aX+b] =\sum_{i=1}^n (ax_i+b)p_i$

である.

$\displaystyle \sum_{i=1}^n (ax_i+b)p_i = a\sum_{i=1}^n x_ip_i+ b\sum_{i=1}^np_i$

第1項目は $aE[X]$ である.

$\displaystyle \sum_{i=1}^np_i=1$ より, 第2項目は $b$ である.

ゆえに, $E[aX+b] = aE[X]+b$ である。

$E[X]=5$ のとき, 確率変数 $3X+2$ の期待値は

$E[3X+2]$ $= 3E[X]+2$ $=3 \cdot 5 + 2$ $=17$

になります。

$V[aX+b] = a^2V[X]$

確率変数 $aX+b$ の分散が $a^2V[X]$ で表されることを理解してみよう。

公式

$X$ を確率変数, $a$, $b$ を定数とすると,

$V[aX+b] = a^2V[X]$

が成り立つ.

証明.

確率変数 $X$ に関する分散の定義から公式を計算する.

確率変数 $X$ の取りうる値を $x_1, \ldots, x_n$ とし, それぞの確率を $p_1, \ldots, p_n$ とする. なお, $p_1 + \cdots + p_n =1$ である.

また, $\mu = E[X]$ を期待値とする.

$\displaystyle V[X] =\sum_{i=1}^n (x_i-\mu)^2p_i$

確率変数 $aX+b$ の取りうる値は $ax_1 + b$, $\ldots$, $ax_n+b$ である.

この期待値は$a \mu+b$ である.

$\displaystyle E[aX+b] =aE[X]+b$

したがって, 確率変数 $aX+b$ の分散は

$\displaystyle V[aX+b]$ $\displaystyle =\sum_{i=1}^n \{(ax_i+b)-(a\mu+b)\}^2p_i$

である.

$\{(ax_i+b)-(a\mu+b)\}^2$ $=a^2(x_i-\mu)^2$ であることから,

$\begin{aligned}
&V[aX+b] \\
\displaystyle &=\sum_{i=1}^n a^2(x_i-\mu)^2p_i \\ \displaystyle &= a^2\sum_{i=1}^n (x_i-\mu)^2p_i \\ &=a^2V[X] \end{aligned}$

ゆえに, $V[aX+b] = a^2V[X]$ である.

$V[X]=4$ のとき, 確率変数 $3X+2$ の分散は

$V[3X+2]$ $= 3^2V[X]$ $=9 \cdot 4$ $=36$

になります。

$\sigma[aX+b] = |a| \sigma[X]$

確率変数 $aX+b$ の標準偏差が $|a|\sigma[X]$ で表されることを理解してみよう。

公式

$X$ を確率変数, $a$, $b$ を定数とすると,

$\sigma[aX+b] = |a|\sigma[X]$

が成り立つ.

証明.

確率変数 $aX+b$ の標準偏差 $\sigma[aX+b]$ を, 分散に関する公式

$V[aX+b]=a^2V[X]$

から計算する.

両辺の平方根を取ると

$\displaystyle \sqrt{V[aX+b]}=|a| \sqrt{V[X]}$

を得る. ここで, 標準偏差の定義から

$\begin{aligned}
\sqrt{V[aX+b]} &= \sigma[aX+b] \\
\sqrt{V[X]} &= \sigma[X]
\end{aligned}$

であり, $\sigma[aX+b] = |a|\sigma[X]$ が導出される.

ゆえに, $\sigma[aX+b] = |a|\sigma[X]$ である.

$\sigma[X]=2$ のとき, 確率変数 $3X+2$ の標準偏差は

$\sigma[3X+2]$ $= 3\sigma[X]$ $=3 \cdot 2$ $=6$

になります。

【事例】確率分布の事例について

ベルヌーイ分布 $B(1,p)$

定義(ベルヌーイ分布)

ベルヌーイ分布は, ベルヌーイ試行によって定義される確率分布です。

ベルヌーイ試行とは, 成功確率が $p$ である試行を1回行い, 成功の場合「1」, 失敗の場合「0」と定める試行です。

結果$0$$1$
確率$1-p$$p$$1$
確率分布

定義(ベルヌーイ分布の確率変数)

ベルヌーイ分布の確率変数 $X$ は $$\begin{aligned}P(X=0) &= 1-p \\ P(X=1) &= p \end{aligned}$$ で定まる確率変数です。$P$ は確率を定める関数です。

$X$$0$$1$
確率$1-p$$p$$1$
確率分布

表が出たら「1」, 裏が出たら「0」であるコイントスはベルヌーイ試行です。

公正なコインの場合 $B(1, 0.5)$ です。表が出る確率が $0.2$ の偏ったコインでは $B(1, 0.2)$ です。

二項分布 $B(n,p)$

定義(二項分布)

二項分布 $B(n,p)$ は成功確率が $p$ の反復試行を $n$ 回行ったときの成功回数についての確率分布である。

二項分布

$0 \leqq r \leqq n$ とする。$n$ 回の試行のうち, $r$ 回成功する確率は $${}_n \mathrm{C}_rp^r(1-p)^{n-r}$$ であり, 確率分布表は次の通り。

回数確率
$0$$(1-p)^n$
$1$${}_n \mathrm{C}_1p(1-p)^{n-1}$
$2$${}_n \mathrm{C}_2p^2(1-p)^{n-2}$
$\vdots$$\vdots$
$n-1$${}_n \mathrm{C}_{n-1}p^{n-1}(1-p)$
$n$$p^n$
合計$1$
確率分布

10回コイントスをしたときの表の回数は二項分布

$\displaystyle B\left(10, \frac{1}{2} \right)$

です。

サイコロを5回転がしたときの5以上の目が出る回数は

$\displaystyle B \left(5, \frac{1}{3} \right)$

です。

ゴルトンボード(Memo)

後日、記載予定。

連続的な確率分布(Memo)

確率分布記号決定量特徴量検定推定量簡単な導出
正規分布$N(\mu, \sigma^2)$平均値,分散$E(X) = \mu$
$V(X) = \sigma^2$
標本平均$\bar{X}$(の母分散による標準化)$$\frac{\bar{X} - \mu}{\sigma/\sqrt{n}}$$
t分布$t(k)$自由度 $k$(サンプル数-1)$E(X) = 0$
$V(X) = \frac{k}{k-2}$
標本平均の不偏分散による標準化 $T$$$\frac{\bar{X} - \mu}{s/\sqrt{n}}$$
カイ2乗分布$\chi^2(k)$自由度 $k$$E(X) = k$
$V(X) = 2k$
不偏分散 $s^2$の線型倍$\sum_{i=1}^kZ_i^2$
$Z_i \sim N(0,1)$
$Z_i = \frac{X_i-\bar{X}}{\sigma}$
F分布$F(p,q)$自由度 $p$, $q$$E(X) = \frac{q}{q-2}$
$V(X)$ は複雑
不偏標準偏差の比
分散分析にも利用される
$\frac{Z_1/p}{Z_2/q}$
$Z_1 \sim \chi(p)$
$Z_2 \sim \chi(q)$

まとめノート

「確率分布(離散型)」とは

離散的に起こる事象その確率の分布を表現したもののこと。

確率分布

出現する値が $\{ x_1, \ldots, x_n \}$ であり, 各 $x_i$ が起こる

確率が $p_i \in [0,1]$ $(p_1+\cdots +p_n=1)$

であることを, $P(x_i) = p_i$ とかく.

確率変数

確率の関数 $P$ の変数を確率変数

といい, 変数の定義域は $\{ x_1, \ldots, x_n \}$ である. 以下, $X$ をこの確率分布に従う確率変数とする.

A. 期待値 $E[X]$

$\displaystyle E[X] = \sum_{i=1}^n x_i p_i$

B. 分散 $V[X]$ と標準偏差 $\sigma[X]$

  1. $\displaystyle V[X] =\sum_{i=1}^n (x_i - m)^2p_i$ $=E[(X-m)^2]$ $= E[X^2] - E[X]^2$
  2. $\displaystyle \sigma[X] = \sqrt{V[X]}$

確率変数の変換

関数 $f$ で 新しい確率変数

$Y=f(X)$

が定義できる. ただし, 確率関数 $P$ は

$P(f(x_i)) = p_i$

を満たすように改めて定義する.

C. 一次変換による変数変換

$Y=aX+b$ ならば $E[Y] = aE[X]+b$, $V[Y] = a^2V[X]$.

ポイント解説

記号

確率変数 $X$ が確率分布 $D$ に従うこと

を $X \sim D$ とかく。

確率分布

ヒストグラム等で可視化;

A

期待値は確率分布の中心を表す。

B

$m=E[X]$ とした。分散と標準偏差は確率分布の散らばりを表す。

確率変数の変換

$y_i = f(x_i)$ のとき, $P(y_i) = P(x_i) = p_i$ であり, 変数変換しても確率の値は変えないことに注意する。

C

$y_i = a x_i +b$ として $E[Y]$ と $V[Y]$ を計算することで導出できる。

発展

確率(分布)はコルモゴロフの公理で定義する:

  1. 各事象から確率を定める関数がある
  2. 全ての事象の確率は $1$ である
  3. 互いに排反な事象全体の確率は各事象の確率の和である(加算加法性)

コメントを残す