- 目次
- 理解
- 表計算
- コード
【理解】データの関連の数学的解説
データの相関について
相関関係の定義
<定義>相関関係
散布図上の直線的な傾向
詳細はこちら
<定義>相関の正負
右上がりの直線的な傾向➨正の相関
右下がりの直線的な傾向➨負の相関
詳細はこちら

<統計量>共分散
$\displaystyle s_{xy}= \frac{(x_1 - \bar{x})(y_1-\bar{y})+\cdots + (x_n - \bar{x})(y_n-\bar{y})}{n}$
証明はこちら
<統計量>相関係数
$\displaystyle r = \frac{s_{xy}}{s_x s_y}$
証明はこちら
<性質>相関係数の範囲
相関係数は
$\displaystyle -1 \leq r \leq 1$
データ $x$ と $y$ について
$|r|=1 \Leftrightarrow y = ax+b$
証明はこちら
<注意>アンスコムの数値例
相関係数が $1$ に近くても相関関係があるとは限らない
※すべて相関係数 $0.816$ の例
詳細はこちら
データの変換と共分散・相関係数
実数 $a, b$ について, データ $x', y'$ とデータ $x, y$ には, $x'=ax+b$ と $y'=cy+d$ という関係があるとする。
<性質>共分散の変化
$\displaystyle s_{x'y'} = ac \cdot s_{xy}$
証明はこちら
<性質>相関係数の変化
$\displaystyle r_{x'y'} = \frac{ac \cdot s_{xy}}{|ac| \cdot s_x s_y}$
証明はこちら
共分散・相関係数の性質
<注意>アンスコムの数値例
相関係数が $1$ に近くても相関関係があるとは限らない
※すべて相関係数 $0.816$ の例
詳細はこちら
<等式>相関係数はコサイン
$r=\cos \theta$
証明はこちら
データの連関について
集計方法
・単純集計
・クロス集計
詳細はこちら
1つの変数について, データを集計する方法を単純集計という。
| 賛成者 | |
| A案 | $10$ |
| B案 | $5$ |
| C案 | $3$ |
| 計 | $18$ |
2つ以上の変数の関係をふまえ, データを同時に集計する方法をクロス集計表という。
| 賛成 | 反対 | 計 | |
| A案 | $5$ | $6$ | $11$ |
| B案 | $3$ | $4$ | $7$ |
| 計 | $8$ | $10$ | $18$ |
<統計量>YuleのQ
$\displaystyle Q = \frac{ad-bc}{ad+bc}$
詳細はこちら
次の2×2のクロス集計表
| ア | イ | 計 | |
| A | $a$ | $b$ | $W=a+b$ |
| B | $c$ | $d$ | $X=c+d$ |
| 計 | $Y=a+c$ | $Z=b+d$ | $a+b+c+d$ |
ではYuleのQは,
$\displaystyle Q = \frac{ad-bc}{ad+bc}$
と定義する。
$-1 \leq Q \leq 1$ である。
<統計量>Φ係数
$\displaystyle \phi=\frac{ad-bc}{\sqrt{W\cdot X \cdot Y \cdot Z}}$
証明はこちら
2×2のクロス集計表
| ア | イ | 計 | |
| A | $a$ | $b$ | $W=a+b$ |
| B | $c$ | $d$ | $X=c+d$ |
| 計 | $Y=a+c$ | $Z=b+d$ | $a+b+c+d$ |
ではΦ係数 $\phi$ は,
$\displaystyle \phi = \frac{ad-bc}{\sqrt{W\cdot X \cdot Y \cdot Z}}$
と定義する。
$-1 \leq \phi \leq 1$ である。
データの読み取りについて
<目安例>相関係数の基準
- $|r| \leqq 0.2$ $\leftrightarrow$ 相関なし
- $0.2 \leqq |r| \leqq 0.4$ $\leftrightarrow$ 弱い相関
- $0.4 \leqq |r| \leqq 0.7$ $\leftrightarrow$ (中程度の)相関
- $0.7 \leqq |r|$ $\leftrightarrow$ 強い相関
- $|r|=1$ $\leftrightarrow$ 完全な比例関係(強い相関)
詳細はこちら
相関係数 $r$ から統計的結果を導く一つの目安として,
- $|r| \leqq 0.2$ $\leftrightarrow$ 相関なし
- $0.2 \leqq |r| \leqq 0.4$ $\leftrightarrow$ 弱い相関
- $0.4 \leqq |r| \leqq 0.7$ $\leftrightarrow$ (中程度の)相関
- $0.7 \leqq |r|$ $\leftrightarrow$ 強い相関
- $|r|=1$ $\leftrightarrow$ 完全な比例関係(強い相関)
がある。ただし, あくまでも一つの目安であり決まっている訳ではない。
散布図上に直線的な傾向があることが相関の前提である。
<目安例>YuleのQ・Φ係数の基準
- $Q, \phi =0$ $\leftrightarrow$ 独立
- $0< Q, \phi \leqq 0.5$ $\leftrightarrow$ 連関なし
- $0.5 \leqq Q, \phi \leqq 0.75$ $\leftrightarrow$ (中程度の)連関
- $0.75 \leqq |r|$ $\leftrightarrow$ 強い連関
- $Q, \phi=1$ $\leftrightarrow$ 完全に偏ったクロス集計表(強い連関)
詳細はこちら
YuleのQやΦ係数 $\phi$ から統計的結果を導く一つの目安として,
- $Q, \phi =0$ $\leftrightarrow$ 独立
- $0< Q, \phi \leqq 0.5$ $\leftrightarrow$ 連関なし
- $0.5 \leqq Q, \phi \leqq 0.75$ $\leftrightarrow$ (中程度の)連関
- $0.75 \leqq |r|$ $\leftrightarrow$ 強い連関
- $Q, \phi=1$ $\leftrightarrow$ 完全に偏ったクロス集計表(強い連関)
がある。ただし, あくまでも一つの目安であり決まっている訳ではない。
その他
因果関係との関係。オッズ比。
【表計算】Excel・スプレッドシートでデータの関連を計算
散布図の作成
相関係数CORREL()
クロス集計表の作成【ピボットテーブル】
【コード】Pythonでデータの関連を計算
散布図の作成scatter()
相関係数(行列)corrcoef()

















