【DS検定対策】その数字に騙されるな!「擬似相関」を見抜く思考法
データ分析の結果、一見すると納得感のある結論が出たとしても、それが「真実の因果」とは限りません。今回は、実社会でもよくある事例をもとに、擬似相関の正体を詳しく解説します。
1. 問題:読書量とテストの点数
【 問題 】 ある小学校で調査したところ、「自宅にある本の数が多い子供ほど、テストの点数が高い」という強い相関が見つかりました。この結果から「子供に本を買い与えれば、成績は必ず上がる」と結論づける際に、最も注意すべき点はどれでしょうか?
① 本のページ数と点数の相関も調べるべきである
② 「保護者の教育意識や年収」という共通要因が、両方に影響している可能性がある
③ 統計学的に、本の数と点数が関係することは絶対にありえない
④ デジタル書籍(Kindleなど)を数に含めていないのが問題である
2. 整理:背後に潜む「黒幕」の正体
二つの事象が連動しているとき、その背後で両方を操っている「第三の変数」が存在しないかを考えます。
【 世界の切り出し 】
・家の本の数
・テストの点数
(一見、本が点数を上げているように見える)
[ 隠れた交絡因子(黒幕) ]
真の要因は 「保護者の教育への関心・経済力」 などです。
1. 教育意識が高い → 家に本をたくさん買う(結果A)
2. 教育意識が高い → 勉強を教える環境が整う → 点数が高い(結果B)
★ 結論:本を買うこと「だけ」で点数が上がるわけではない
--------------------------
◎ 教訓: データの連動=仕組みの解明ではない
3. 解説プロセス
1. もっともらしい仮説を疑う: 「本を読めば頭が良くなる」という仮説は魅力的ですが、データはその証明には不十分です。
2. 共通の原因を探す: 本を買う余裕や習慣がある家庭の「他の特徴」を想像してみます。
3. 打ち手の有効性を考える: もし擬似相関なら、本を配るだけの施策では成績向上(目的達成)には繋がりません。
4. DS検定形式:実戦4択クイズ
問:擬似相関を排除し、真の因果関係を測定するために、対象をランダムに2群に分けて比較する実験手法を何と呼ぶか。
① 主成分分析 ② 時系列分析 ③ ランダム化比較試験(RCT) ④ 重回帰分析
【 正解: ③ 】
解説: ランダム化比較試験(RCT)は、未知の交絡因子の影響を均等化できるため、因果推論の「黄金律」と呼ばれます。ビジネスの現場では「A/Bテスト」として広く活用されています。
5. まとめ
「本の数」と「学力」の例のように、擬似相関は一見すると正しい論理のように聞こえるのが特徴です。DS検定でも、「この相関を説明できる別の要因はないか?」と常に自問自答する姿勢が求められます。