• 目次
  • 理解
  • 表計算
  • コード

【理解】データの関連の数学的解説

データの相関について

相関の定義

[custom_content_widget post_id="43645"]

$\displaystyle s_{xy}= \frac{(x_1 - \bar{x})(y_1-\bar{y})+\cdots + (x_n - \bar{x})(y_n-\bar{y})}{n}$(共分散)

[custom_content_widget post_id="42714"]

$\displaystyle r = \frac{s_{xy}}{s_x s_y}$(相関係数)

[custom_content_widget post_id="42709"]

$\displaystyle s_{x'y'} = acs_{xy}$
※ $x'=ax+b$ と $y'=cy+d$ による共分散の変化

[custom_content_widget post_id="43808"]

$\displaystyle r_{x'y'} = \frac{acs_{xy}}{|ac|s_x s_y}$
※ $x'=ax+b$ と $y'=cy+d$ による相関係数の変化

[custom_content_widget post_id="43823"]

相関係数から統計的結果を導く基準(目安例)

相関係数 $r$ から統計的結果を導く一つの目安として,

  • $|r| \leqq 0.2$ $\leftrightarrow$ 相関なし
  • $0.2 \leqq |r| \leqq 0.4$ $\leftrightarrow$ 弱い相関
  • $0.4 \leqq |r| \leqq 0.7$ $\leftrightarrow$ (中程度の)相関
  • $0.7 \leqq |r|$ $\leftrightarrow$ 強い相関
  • $|r|=1$ $\leftrightarrow$ 完全な比例関係(強い相関)

がある。ただし, あくまでも一つの目安であり決まっている訳ではない。

散布図上に直線的な傾向があることが相関の前提である。

アンスコムの数値例 $r=0.816$

[custom_content_widget post_id="43671"]

$r=\cos \theta$

[custom_content_widget post_id="40134"]

データの連関について

単純集計とクロス集計

1つの変数について, データを集計する方法を単純集計という。

賛成者
A案$10$
B案$5$
C案$3$
$18$
単純集計の例

2つ以上の変数の関係をふまえ, データを同時に集計する方法をクロス集計表という。

賛成反対
A案$5$$6$$11$
B案$3$$4$$7$
$8$$10$$18$
クロス集計表の例

$\displaystyle Q = \frac{ad-bc}{ad+bc}$(YuleのQ)

A$a$$b$$W=a+b$
B$c$$d$$X=c+d$
$Y=a+c$$Z=b+d$$a+b+c+d$

2×2のクロス集計表ではYuleのQは,

$\displaystyle Q = \frac{ad-bc}{ad+bc}$

と定義する。

$-1 \leq Q \leq 1$ である。

オッズ比(準備中)

[custom_content_widget post_id=""]

$\displaystyle \phi=\frac{ad-bc}{\sqrt{W\cdot X \cdot Y \cdot Z}}$(Φ係数)

A$a$$b$$W=a+b$
B$c$$d$$X=c+d$
$Y=a+c$$Z=b+d$$a+b+c+d$

2×2のクロス集計表ではΦ係数の $\phi$ は,

$\displaystyle \phi = \frac{ad-bc}{\sqrt{W\cdot X \cdot Y \cdot Z}}$

と定義する。

$-1 \leq \phi \leq 1$ である。

YuleのQやΦ係数から統計的結果を導く基準(目安例)

YuleのQやΦ係数 $\phi$ から統計的結果を導く一つの目安として,

  • $Q, \phi =0$ $\leftrightarrow$ 独立
  • $0< Q, \phi \leqq 0.5$ $\leftrightarrow$ 連関なし
  • $0.5 \leqq Q, \phi \leqq 0.75$ $\leftrightarrow$ (中程度の)連関
  • $0.75 \leqq |r|$ $\leftrightarrow$ 強い連関
  • $Q, \phi=1$ $\leftrightarrow$ 完全に偏ったクロス集計表(強い相関)

がある。ただし, あくまでも一つの目安であり決まっている訳ではない。

因果関係について

因果関係との関係

[custom_content_widget post_id=""]

【表計算】Excel・スプレッドシートでデータの関連を計算

散布図の作成

[custom_content_widget post_id="43286"]

相関係数CORREL()

[custom_content_widget post_id="43047"]

クロス集計表の作成【ピボットテーブル】

[custom_content_widget post_id="43338"]

【コード】Pythonでデータの関連を計算

散布図の作成scatter()

[custom_content_widget post_id="43451"]

相関係数(行列)corrcoef()

[custom_content_widget post_id="43610"]

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です