- まとめ
- 表紙
- ①繋がり
- ②例
「確率分布」とは
確率変数の各値についての確率全体のこと。
確率変数
確率分布の情報を持つ変数である.
記号
確率変数 $X$は確率分布 $D$ に従うといい, $X \sim D$ と書く.
確率変数の値 | $x_1$ | $x_2$ | $\cdots$ | $x_n$ |
確率 | $p_1$ | $p_2$ | $\cdots$ | $p_n$ |
A. 確率変数の変換
関数 $y=f(x)$ で変換した確率変数 $Y = f(X)$ の各値は $X$ と違うが, 各確率は変わらない.
$Y$ | $f(x_1)$ | $\cdots$ | $f(x_n)$ |
確率 | $p_1$ | $\cdots$ | $p_n$ |
B. 確率変数の特徴を示す統計量
- 期待値:$\displaystyle E(X) = \sum_{i=1}^n x_i p_i$
- 分散:$\displaystyle V(X) =\sum_{i=1}^n (x_i - m)^2p_i$
ポイント解説
記号
'$P(X=x_i) = p_i$' や '$P(X \leqq x_k) = \sum_{i=1}^k p_i$' 等と表記します。
B
❶ 次の書き方で, 期待値が確率変数から定義されていることが分かります。$$E(X) = \sum_{i=1}^n x_iP(X = x_i)$$
$m=E(X)$ と置きます。
❷ 分散の定義は次と同値です
$$V(X)=E((X-m)^2)$$
また, 次の公式も利用できます。
$$V(X) = E(X^2) - E(X)^2$$
標準偏差も定義できます。
$$\displaystyle \sigma(X) = \sqrt{V(X)}$$
★連続型確率分布は今後の予定。
データから確率分布を作成
データをヒストグラムとして整理したものを頻度として捉え直すと確率分布になります。
次のデータから確率分布の考えを整理する。
$D = [150, 150, 160, 160, 160, 160, 160, 165, 165, 170]$
度数分布表で整理
$D$の度数分布表
階級 | 度数 |
---|---|
150 | $2$ |
160 | $5$ |
165 | $2$ |
170 | $1$ |
合計 | $10$ |
$D$のヒストグラム
平均値と分散
この度数分布表からデータの分析の「平均値」と「分散」を計算しよう。
$$\begin{aligned}
m &= \frac{1}{10}(150 \times 2 + 160 \times 5 + 165 \times 2 + 170 \times 1) \\
&= 160 \\
\sigma^2 &= \frac{1}{10}((-10)^2 \times 2 + 0 \times 5 + 5^2 \times 2 + 10^2 \times 1) \\
&= 35
\end{aligned}$$
頻度表を作成
$D$の頻度表
階級 | 度数 |
---|---|
150 | $0.2$ |
160 | $0.5$ |
165 | $0.2$ |
170 | $0.2$ |
合計 | $10$ |
この頻度表および、棒グラフが意味するものが「確率分布」である。
確率分布表
変数 | 150 | 160 | 165 | 170 |
確率 | $\displaystyle \frac{2}{10}$ | $\displaystyle \frac{5}{10}$ | $\displaystyle \frac{2}{10}$ | $\displaystyle \frac{1}{10}$ |
期待値と分散
この度数分布表からデータの分析の「期待値」と「分散」を計算しよう。
$$\begin{aligned}
m &= 150 \times \frac{2}{10} + 160 \times \frac{5}{10} + 165 \times \frac{2}{10} + 170 \times \frac{1}{10} \\
&= 160 \\
\sigma^2 &= (-10)^2 \times \frac{2}{10} + 0 \times \frac{5}{10} + 5^2 \times \frac{2}{10} + 10^2 \times \frac{1}{10}) \\
&= 35
\end{aligned}$$
確率分布の例
確率分布 | 記号 | 決定量 | 特徴量 | 検定推定量 | 簡単な導出 |
---|---|---|---|---|---|
正規分布 | $N(\mu, \sigma^2)$ | 平均値,分散 | $E(X) = \mu$ $V(X) = \sigma^2$ | 標本平均$\bar{X}$(の母分散による標準化) | $$\frac{\bar{X} - \mu}{\sigma/\sqrt{n}}$$ |
t分布 | $t(k)$ | 自由度 $k$(サンプル数-1) | $E(X) = 0$ $V(X) = \frac{k}{k-2}$ | 標本平均の不偏分散による標準化 $T$ | $$\frac{\bar{X} - \mu}{s/\sqrt{n}}$$ |
カイ2乗分布 | $\chi^2(k)$ | 自由度 $k$ | $E(X) = k$ $V(X) = 2k$ | 不偏分散 $s^2$の線型倍 | $\sum_{i=1}^kZ_i^2$ $Z_i \sim N(0,1)$ $Z_i = \frac{X_i-\bar{X}}{\sigma}$ |
F分布 | $F(p,q)$ | 自由度 $p$, $q$ | $E(X) = \frac{q}{q-2}$ $V(X)$ は複雑 | 不偏標準偏差の比 分散分析にも利用される | $\frac{Z_1/p}{Z_2/q}$ $Z_1 \sim \chi(p)$ $Z_2 \sim \chi(q)$ |
二項分布 | $B(n,p)$ [離散分布] | 試行回数,成功確率 | $E(X) = np$ $V(X) = q$ |