忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】その数字に騙されるな!「擬似相関」を見抜く思考法

データ分析の結果、一見すると納得感のある結論が出たとしても、それが「真実の因果」とは限りません。今回は、実社会でもよくある事例をもとに、擬似相関の正体を詳しく解説します。

1. 問題:読書量とテストの点数

【 問題 】 ある小学校で調査したところ、「自宅にある本の数が多い子供ほど、テストの点数が高い」という強い相関が見つかりました。この結果から「子供に本を買い与えれば、成績は必ず上がる」と結論づける際に、最も注意すべき点はどれでしょうか?

① 本のページ数と点数の相関も調べるべきである  
② 「保護者の教育意識や年収」という共通要因が、両方に影響している可能性がある  
③ 統計学的に、本の数と点数が関係することは絶対にありえない  
④ デジタル書籍(Kindleなど)を数に含めていないのが問題である

2. 整理:背後に潜む「黒幕」の正体

二つの事象が連動しているとき、その背後で両方を操っている「第三の変数」が存在しないかを考えます。

【 世界の切り出し 】

[ 表面的な相関 ]
・家の本の数
・テストの点数
(一見、本が点数を上げているように見える)

[ 隠れた交絡因子(黒幕) ]
真の要因は 「保護者の教育への関心・経済力」 などです。

1. 教育意識が高い → 家に本をたくさん買う(結果A)
2. 教育意識が高い → 勉強を教える環境が整う → 点数が高い(結果B)

結論:本を買うこと「だけ」で点数が上がるわけではない

--------------------------

教訓: データの連動=仕組みの解明ではない

3. 解説プロセス

1. もっともらしい仮説を疑う: 「本を読めば頭が良くなる」という仮説は魅力的ですが、データはその証明には不十分です。
2. 共通の原因を探す: 本を買う余裕や習慣がある家庭の「他の特徴」を想像してみます。
3. 打ち手の有効性を考える: もし擬似相関なら、本を配るだけの施策では成績向上(目的達成)には繋がりません。


4. DS検定形式:実戦4択クイズ

問:擬似相関を排除し、真の因果関係を測定するために、対象をランダムに2群に分けて比較する実験手法を何と呼ぶか。

① 主成分分析   ② 時系列分析   ③ ランダム化比較試験(RCT)   ④ 重回帰分析

【 正解: ③ 】

解説: ランダム化比較試験(RCT)は、未知の交絡因子の影響を均等化できるため、因果推論の「黄金律」と呼ばれます。ビジネスの現場では「A/Bテスト」として広く活用されています。


5. まとめ

「本の数」と「学力」の例のように、擬似相関は一見すると正しい論理のように聞こえるのが特徴です。DS検定でも、「この相関を説明できる別の要因はないか?」と常に自問自答する姿勢が求められます。


PR