- 目次
- 理解
- 表計算
- コード
【理解】データの関連の数学的解説
データの相関について
相関の定義
[custom_content_widget post_id="43645"]
$\displaystyle s_{xy}= \frac{(x_1 - \bar{x})(y_1-\bar{y})+\cdots + (x_n - \bar{x})(y_n-\bar{y})}{n}$(共分散)
[custom_content_widget post_id="42714"]
$\displaystyle r = \frac{s_{xy}}{s_x s_y}$(相関係数)
[custom_content_widget post_id="42709"]
$\displaystyle s_{x'y'} = acs_{xy}$
※ $x'=ax+b$ と $y'=cy+d$ による共分散の変化
[custom_content_widget post_id="43808"]
$\displaystyle r_{x'y'} = \frac{acs_{xy}}{|ac|s_x s_y}$
※ $x'=ax+b$ と $y'=cy+d$ による相関係数の変化
[custom_content_widget post_id="43823"]
相関係数から統計的結果を導く基準(目安例)
相関係数 $r$ から統計的結果を導く一つの目安として,
- $|r| \leqq 0.2$ $\leftrightarrow$ 相関なし
- $0.2 \leqq |r| \leqq 0.4$ $\leftrightarrow$ 弱い相関
- $0.4 \leqq |r| \leqq 0.7$ $\leftrightarrow$ (中程度の)相関
- $0.7 \leqq |r|$ $\leftrightarrow$ 強い相関
- $|r|=1$ $\leftrightarrow$ 完全な比例関係(強い相関)
がある。ただし, あくまでも一つの目安であり決まっている訳ではない。
散布図上に直線的な傾向があることが相関の前提である。
アンスコムの数値例 $r=0.816$
[custom_content_widget post_id="43671"]
$r=\cos \theta$
[custom_content_widget post_id="40134"]
データの連関について
単純集計とクロス集計
1つの変数について, データを集計する方法を単純集計という。
| 賛成者 | |
| A案 | $10$ |
| B案 | $5$ |
| C案 | $3$ |
| 計 | $18$ |
2つ以上の変数の関係をふまえ, データを同時に集計する方法をクロス集計表という。
| 賛成 | 反対 | 計 | |
| A案 | $5$ | $6$ | $11$ |
| B案 | $3$ | $4$ | $7$ |
| 計 | $8$ | $10$ | $18$ |
$\displaystyle Q = \frac{ad-bc}{ad+bc}$(YuleのQ)
| ア | イ | 計 | |
| A | $a$ | $b$ | $W=a+b$ |
| B | $c$ | $d$ | $X=c+d$ |
| 計 | $Y=a+c$ | $Z=b+d$ | $a+b+c+d$ |
2×2のクロス集計表ではYuleのQは,
$\displaystyle Q = \frac{ad-bc}{ad+bc}$
と定義する。
$-1 \leq Q \leq 1$ である。
オッズ比(準備中)
[custom_content_widget post_id=""]
$\displaystyle \phi=\frac{ad-bc}{\sqrt{W\cdot X \cdot Y \cdot Z}}$(Φ係数)
| ア | イ | 計 | |
| A | $a$ | $b$ | $W=a+b$ |
| B | $c$ | $d$ | $X=c+d$ |
| 計 | $Y=a+c$ | $Z=b+d$ | $a+b+c+d$ |
2×2のクロス集計表ではΦ係数の $\phi$ は,
$\displaystyle \phi = \frac{ad-bc}{\sqrt{W\cdot X \cdot Y \cdot Z}}$
と定義する。
$-1 \leq \phi \leq 1$ である。
YuleのQやΦ係数から統計的結果を導く基準(目安例)
YuleのQやΦ係数 $\phi$ から統計的結果を導く一つの目安として,
- $Q, \phi =0$ $\leftrightarrow$ 独立
- $0< Q, \phi \leqq 0.5$ $\leftrightarrow$ 連関なし
- $0.5 \leqq Q, \phi \leqq 0.75$ $\leftrightarrow$ (中程度の)連関
- $0.75 \leqq |r|$ $\leftrightarrow$ 強い連関
- $Q, \phi=1$ $\leftrightarrow$ 完全に偏ったクロス集計表(強い相関)
がある。ただし, あくまでも一つの目安であり決まっている訳ではない。
因果関係について
因果関係との関係
[custom_content_widget post_id=""]
【表計算】Excel・スプレッドシートでデータの関連を計算
散布図の作成
[custom_content_widget post_id="43286"]
相関係数CORREL()
[custom_content_widget post_id="43047"]
クロス集計表の作成【ピボットテーブル】
[custom_content_widget post_id="43338"]
【コード】Pythonでデータの関連を計算
散布図の作成scatter()
[custom_content_widget post_id="43451"]
相関係数(行列)corrcoef()
[custom_content_widget post_id="43610"]


