【DS検定対策】データの罠を見抜く!「相関と因果」の違いを理解するコツ
データ分析で最も陥りやすい罠が、相関関係と因果関係の混同です。今回は、DS検定でも頻出の「擬似相関」を題材に、正しくデータを読み解く考え方を解説します。
1. 問題:アイスと水難事故の関係
【 問題 】 ある地域でデータを取ると、「アイスクリームの売上が増えると、水難事故の件数も増える」という強い正の相関が見られました。この現象の解釈として、最も適切なものはどれでしょうか?
① アイスを食べることが水難事故の直接的な原因である
② 水難事故が増えると、ストレスでアイスの消費が増える
③ 「気温の上昇」という共通要因が、両方に影響を与えている
④ この二つの間には、統計的な関連性は全く存在しない
2. 整理:相関と因果の「世界」を切り分ける
相関があるからといって、すぐに「原因と結果」だと決めつけるのは危険です。背後に隠れた「第三の変数」を疑うのがコツです。
【 世界の切り出し 】
・アイスの売上
・水難事故の件数
(統計上、二つは連動して動いている)
[ 本当の世界(因果の構造) ]
真の原因は 「気温の上昇(猛暑)」 です。
1. 気温が上がる → アイスが売れる(因果A)
2. 気温が上がる → 泳ぐ人が増える → 事故が増える(因果B)
★ 結論:アイスと事故に直接の因果はない
--------------------------
◎ この現象の名前: 擬似相関(見せかけの相関)
3. 解説プロセス
1. 連動を確認する: 二つのデータが一緒に動いているなら、まずは「相関あり」と判断します。
2. 黒幕(交絡因子)を疑う: 両方に影響を与えている「第三の変数(今回は気温)」がないか検討します。
3. 因果を判定する: 第三の変数によって説明がつく場合、それは直接の因果ではなく「擬似相関」と呼びます。
4. DS検定形式:実戦4択クイズ
問:原因と結果の両方に影響を与え、あたかも因果関係があるかのように見せてしまう「第三の変数」を何と呼ぶか。
① 独立変数 ② 交絡因子 ③ ダミー変数 ④ 説明変数
【 正解: ② 】
解説: 「交絡因子(こうらくいんし)」は、相関と因果を混同させる原因となる変数です。これを取り除いて分析(変数の制御)をしないと、誤った意思決定をしてしまう可能性があります。
5. まとめ
「相関関係は因果関係を意味しない(Correlation does not imply causation)」という言葉は、データサイエンティストにとっての金言です。数字の連動だけに惑わされず、その裏にある現実の仕組みを想像する力を養いましょう!