忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】その数字に騙されるな!「擬似相関」を見抜く思考法

データ分析の結果、一見すると納得感のある結論が出たとしても、それが「真実の因果」とは限りません。今回は、実社会でもよくある事例をもとに、擬似相関の正体を詳しく解説します。

1. 問題:読書量とテストの点数

【 問題 】 ある小学校で調査したところ、「自宅にある本の数が多い子供ほど、テストの点数が高い」という強い相関が見つかりました。この結果から「子供に本を買い与えれば、成績は必ず上がる」と結論づける際に、最も注意すべき点はどれでしょうか?

① 本のページ数と点数の相関も調べるべきである  
② 「保護者の教育意識や年収」という共通要因が、両方に影響している可能性がある  
③ 統計学的に、本の数と点数が関係することは絶対にありえない  
④ デジタル書籍(Kindleなど)を数に含めていないのが問題である

2. 整理:背後に潜む「黒幕」の正体

二つの事象が連動しているとき、その背後で両方を操っている「第三の変数」が存在しないかを考えます。

【 世界の切り出し 】

[ 表面的な相関 ]
・家の本の数
・テストの点数
(一見、本が点数を上げているように見える)

[ 隠れた交絡因子(黒幕) ]
真の要因は 「保護者の教育への関心・経済力」 などです。

1. 教育意識が高い → 家に本をたくさん買う(結果A)
2. 教育意識が高い → 勉強を教える環境が整う → 点数が高い(結果B)

結論:本を買うこと「だけ」で点数が上がるわけではない

--------------------------

教訓: データの連動=仕組みの解明ではない

3. 解説プロセス

1. もっともらしい仮説を疑う: 「本を読めば頭が良くなる」という仮説は魅力的ですが、データはその証明には不十分です。
2. 共通の原因を探す: 本を買う余裕や習慣がある家庭の「他の特徴」を想像してみます。
3. 打ち手の有効性を考える: もし擬似相関なら、本を配るだけの施策では成績向上(目的達成)には繋がりません。


4. DS検定形式:実戦4択クイズ

問:擬似相関を排除し、真の因果関係を測定するために、対象をランダムに2群に分けて比較する実験手法を何と呼ぶか。

① 主成分分析   ② 時系列分析   ③ ランダム化比較試験(RCT)   ④ 重回帰分析

【 正解: ③ 】

解説: ランダム化比較試験(RCT)は、未知の交絡因子の影響を均等化できるため、因果推論の「黄金律」と呼ばれます。ビジネスの現場では「A/Bテスト」として広く活用されています。


5. まとめ

「本の数」と「学力」の例のように、擬似相関は一見すると正しい論理のように聞こえるのが特徴です。DS検定でも、「この相関を説明できる別の要因はないか?」と常に自問自答する姿勢が求められます。


PR

【DS検定対策】データの罠を見抜く!「相関と因果」の違いを理解するコツ

データ分析で最も陥りやすい罠が、相関関係と因果関係の混同です。今回は、DS検定でも頻出の「擬似相関」を題材に、正しくデータを読み解く考え方を解説します。

1. 問題:アイスと水難事故の関係

【 問題 】 ある地域でデータを取ると、「アイスクリームの売上が増えると、水難事故の件数も増える」という強い正の相関が見られました。この現象の解釈として、最も適切なものはどれでしょうか?

① アイスを食べることが水難事故の直接的な原因である  
② 水難事故が増えると、ストレスでアイスの消費が増える  
③ 「気温の上昇」という共通要因が、両方に影響を与えている  
④ この二つの間には、統計的な関連性は全く存在しない

2. 整理:相関と因果の「世界」を切り分ける

相関があるからといって、すぐに「原因と結果」だと決めつけるのは危険です。背後に隠れた「第三の変数」を疑うのがコツです。

【 世界の切り出し 】

[ 見えている世界(相関関係) ]
・アイスの売上
・水難事故の件数
(統計上、二つは連動して動いている)

[ 本当の世界(因果の構造) ]
真の原因は 「気温の上昇(猛暑)」 です。

1. 気温が上がる → アイスが売れる(因果A)
2. 気温が上がる → 泳ぐ人が増える → 事故が増える(因果B)

結論:アイスと事故に直接の因果はない

--------------------------

この現象の名前: 擬似相関(見せかけの相関)

3. 解説プロセス

1. 連動を確認する: 二つのデータが一緒に動いているなら、まずは「相関あり」と判断します。
2. 黒幕(交絡因子)を疑う: 両方に影響を与えている「第三の変数(今回は気温)」がないか検討します。
3. 因果を判定する: 第三の変数によって説明がつく場合、それは直接の因果ではなく「擬似相関」と呼びます。


4. DS検定形式:実戦4択クイズ

問:原因と結果の両方に影響を与え、あたかも因果関係があるかのように見せてしまう「第三の変数」を何と呼ぶか。

① 独立変数   ② 交絡因子   ③ ダミー変数   ④ 説明変数

【 正解: ② 】

解説: 「交絡因子(こうらくいんし)」は、相関と因果を混同させる原因となる変数です。これを取り除いて分析(変数の制御)をしないと、誤った意思決定をしてしまう可能性があります。


5. まとめ

「相関関係は因果関係を意味しない(Correlation does not imply causation)」という言葉は、データサイエンティストにとっての金言です。数字の連動だけに惑わされず、その裏にある現実の仕組みを想像する力を養いましょう!


【DS検定対策】要注意!「区別がつかないサイコロ」でも確率は変わる?

「区別がつかない3個のサイコロ」という表現に惑わされてはいけません。確率の世界では、事象の起こりやすさを平等に評価するために、常にそれぞれを区別して考えます。

1. 【 問題 】

区別のつかない3個のサイコロを同時に投げるとき、出る目の和が「5の倍数」となる確率はいくらでしょうか?

① 11/56
② 43/216
③ 1/5
④ 21/108


2. 【 解答 】

正解: ② 43/216

3. 重要な罠:なぜ「区別あり」と同じ答えなのか?

「区別がつかない」と言われても、実際にはサイコロは別々の物体として存在し、それぞれが1〜6の目を独立して出します。

【 なぜ区別しないとダメなのか? 】
例えば、和が「3」になるのは (1,1,1) の 1通り です。
一方で、和が「4」になるのは (1,1,2), (1,2,1), (2,1,1) の 3通り あります。

もし区別せずに「組み合わせ」だけで数えると:
・和が3になる組み合わせ: {1,1,1} (1通り)
・和が4になる組み合わせ: {1,1,2} (1通り)

これでは「和が3になる確率」と「和が4になる確率」が同じになってしまい、現実とズレてしまいます!

4. 整理:同様に確からしい事象

1. 全事象の固定: 確率を計算する際の分母は、常に「同様に確からしい(起こる確率が同じ)」事象の数でなければなりません。そのため、サイコロは常に区別して $6^3 = 216$ 通りとします。
2. 分子の数え上げ: 前回の問題(区別あり)で計算した「43通り」は、すでにこの原則に則って並べ替えまで考慮しています。


5. DS検定形式:実戦4択クイズ

問:確率の計算において、複数のコインやサイコロが「区別できない」と記述されている場合、どのように扱うのが適切か。

① 組み合わせの数だけを数え、それを全事象とする。
② 物理的に区別できない場合は、確率は等確率(一様分布)になるとみなす。
③ 確率計算の原則に従い、それぞれを区別できるものとして全事象を数える。
④ 統計学的には「区別できない」場合は計算不能として扱う。

【 正解: ③ 】

解説: 「区別できない」という言葉は、あくまで「人間の目にはそう見える」という状況説明に過ぎません。数学的な「同様に確からしい」状態を作るためには、個々のサイコロを識別して考える必要があります。


6. まとめ

DS検定や数学の問題で「区別のつかない〜」という言葉が出てきたら、それは「ひっかけ」のサインです。分母を 216 通り(または $6^n$ 通り)から動かさず、冷静に分子を数え上げましょう!

【DS検定対策】全事象を整理せよ!サイコロ3個の和と確率の計算

確率の問題では「漏れなく、重複なく」数え上げることが重要です。3個のサイコロを振る場合、全事象は $6 \times 6 \times 6 = 216$ 通りになります。ここから条件に合うケースを抽出しましょう。

1. 【 問題 】

大・中・小の3個のサイコロを同時に投げるとき、出る目の和が「5の倍数」となる確率はいくらでしょうか?

① 36/216
② 40/216
③ 43/216
④ 48/216


2. 【 解答 】

正解: ③ 43/216

3. 図解:和が5の倍数になる組み合わせの抽出

3個のサイコロの和は最小3、最大18です。この範囲にある5の倍数は 5, 10, 15 の3パターンです。

① 和が 5 になる場合(6通り)
(1,1,3) → 並べ替え:[1,1,3], [1,3,1], [3,1,1] (3通り)
(1,2,2) → 並べ替え:[1,2,2], [2,1,2], [2,2,1] (3通り)

② 和が 10 になる場合(27通り)
(1,3,6) → 6通り / (1,4,5) → 6通り
(2,2,6) → 3通り / (2,3,5) → 6通り / (2,4,4) → 3通り
(3,3,4) → 3通り

③ 和が 15 になる場合(10通り)
(3,6,6) → 3通り / (4,5,6) → 6通り / (5,5,5) → 1通り

合計: 6 + 27 + 10 = 43通り

4. 確率の計算

1. 分母(全事象): $6 \times 6 \times 6 = 216$ 通り
2. 分子(対象事象): 上記で算出した 43 通り
3. 結論: 求める確率は 43/216 となります。

5. DS検定形式:実戦4択クイズ

問:3個のサイコロを投げる試行において、特定の「和」の出現確率が最も高くなるのは、和がいくつの時か。

① 7   ② 10   ③ 10.5   ④ 11

【 正解: ②と④(10または11) 】

解説: サイコロの和の分布は中央値付近が最も高くなります。3個の場合は 10.5 が中心(期待値)となるため、その両隣の 10 と 11 が最も頻出(各27通り)します。分布が左右対称になることを知っておくと、数え上げミスを減らせます。


6. まとめ

サイコロの問題は「最大値・最小値を把握して範囲を絞る」ことが鉄則です。DS検定でも、SQLでの集計や、ビジネスデータの異常値検知の基礎として、こうした数え上げの論理思考が問われます!

【DS検定対策】確率の基本!トランプから「特定のカード」を引く計算

確率の計算は「起こりうるすべてのパターンの数」を分母に、「特定の条件を満たす数」を分子に置くのが基本です。トランプを例に、数え上げのコツを掴みましょう。

1. 【 問題 】

ジョーカーを除いた52枚のトランプ1セットから、カードを1枚引くとき、それが「黒の絵札」である確率はいくらでしょうか?

① 3/52
② 6/52
③ 12/52
④ 26/52


2. 【 解答 】

正解: ② 6/52

3. 整理:カードの内訳を分解する

確率を求めるためには、まず「対象となるカードが何枚あるか」を正確に数え上げる必要があります。

【 「黒の絵札」の数え方 】

[ 1. 黒のマーク ]
・スペード(♠️)
・クラブ(♣️)

[ 2. 絵札の種類 ]
・ジャック(J)
・クイーン(Q)
・キング(K)

[ 3. 合計枚数の計算 ]
★ 2マーク × 3種類 = 6枚
(♠️J, ♠️Q, ♠️K, ♣️J, ♣️Q, ♣️K)

--------------------------

確率の式: 対象の数(6) ÷ 全体の数(52) = 6/52
(約分すると 3/26 ですが、試験では選択肢に合わせて判断します)

4. 確率の基本公式

1. 全事象の把握: 常に「全部で何通りあるか」を分母に置きます。トランプなら通常は52(ジョーカー込みなら53や54)です。
2. 排反事象: 「黒の絵札」かつ「赤の絵札」のようなカードは存在しません。このような関係を「互いに排反である」と言います。
3. 条件の積: 「黒である確率(26/52)」×「絵札である確率(12/52)」として計算しても、同じ結果が得られます。


5. DS検定形式:実戦4択クイズ

問:トランプ52枚から1枚引くとき、それが「ハート」または「エース(A)」である確率はいくらになるか。

① 16/52   ② 17/52   ③ 13/52   ④ 4/52

【 正解: ① 】

解説: ハートは13枚、エースは4枚あります。ただし、「ハートのエース」が両方に数えられているため、13 + 4 - 1 = 16枚となります。この「重なりを引く」考え方は、集合の和集合の計算と同じです。


6. まとめ

DS検定では、こうした単純な数え上げから、条件が複雑になった「条件付き確率」まで幅広く出題されます。まずはトランプやサイコロを題材に、分母と分子を正確に見極める癖をつけておきましょう!