忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】データの罠を見抜く!「相関と因果」の違いを理解するコツ

データ分析で最も陥りやすい罠が、相関関係と因果関係の混同です。今回は、DS検定でも頻出の「擬似相関」を題材に、正しくデータを読み解く考え方を解説します。

1. 問題:アイスと水難事故の関係

【 問題 】 ある地域でデータを取ると、「アイスクリームの売上が増えると、水難事故の件数も増える」という強い正の相関が見られました。この現象の解釈として、最も適切なものはどれでしょうか?

① アイスを食べることが水難事故の直接的な原因である  
② 水難事故が増えると、ストレスでアイスの消費が増える  
③ 「気温の上昇」という共通要因が、両方に影響を与えている  
④ この二つの間には、統計的な関連性は全く存在しない

2. 整理:相関と因果の「世界」を切り分ける

相関があるからといって、すぐに「原因と結果」だと決めつけるのは危険です。背後に隠れた「第三の変数」を疑うのがコツです。

【 世界の切り出し 】

[ 見えている世界(相関関係) ]
・アイスの売上
・水難事故の件数
(統計上、二つは連動して動いている)

[ 本当の世界(因果の構造) ]
真の原因は 「気温の上昇(猛暑)」 です。

1. 気温が上がる → アイスが売れる(因果A)
2. 気温が上がる → 泳ぐ人が増える → 事故が増える(因果B)

結論:アイスと事故に直接の因果はない

--------------------------

この現象の名前: 擬似相関(見せかけの相関)

3. 解説プロセス

1. 連動を確認する: 二つのデータが一緒に動いているなら、まずは「相関あり」と判断します。
2. 黒幕(交絡因子)を疑う: 両方に影響を与えている「第三の変数(今回は気温)」がないか検討します。
3. 因果を判定する: 第三の変数によって説明がつく場合、それは直接の因果ではなく「擬似相関」と呼びます。


4. DS検定形式:実戦4択クイズ

問:原因と結果の両方に影響を与え、あたかも因果関係があるかのように見せてしまう「第三の変数」を何と呼ぶか。

① 独立変数   ② 交絡因子   ③ ダミー変数   ④ 説明変数

【 正解: ② 】

解説: 「交絡因子(こうらくいんし)」は、相関と因果を混同させる原因となる変数です。これを取り除いて分析(変数の制御)をしないと、誤った意思決定をしてしまう可能性があります。


5. まとめ

「相関関係は因果関係を意味しない(Correlation does not imply causation)」という言葉は、データサイエンティストにとっての金言です。数字の連動だけに惑わされず、その裏にある現実の仕組みを想像する力を養いましょう!


PR