【DS検定対策】「わざわざ回答する人」の偏り!自己選択バイアスの罠
「アンケートにご協力ください」と言われて、進んで回答してくれるのはどんな人でしょうか?そこには最初から強い偏りが存在します。それが自己選択バイアスです。
1. 【 問題 】
統計調査や実験において、調査主体がランダムに対象者を選ぶ(無作為抽出する)のではなく、対象者が「自分の意思で進んで参加(自己選択)する」ことによって、集まったデータに強い偏りが生じる現象を何と呼ぶでしょうか?
① 自己選択バイアス
② 観察者バイアス
③ 回避バイアス
④ 出版バイアス
2. 【 解答 】
3. 整理:なぜ「自分の意思」がバイアスを生むのか?
インターネット上の多くのデータは、このバイアスの影響を強く受けています。実務でもよくある具体例を見てみましょう。
【 自己選択バイアスの具体例 】
ある商品のレビューを見ると、「星5(大満足)」と「星1(大不満)」ばかりで、中間の星3が極端に少ない。
⇒ 罠:普通に満足して何も不満がない「大多数のユーザー」は、わざわざレビューを書くという面倒な行動を起こしません。レビューを書くのは「猛烈に感動した人」か「激怒している人」だけになりがちです(自己選択)。
・事例2:ネットの政治世論調査
特定のニュースサイトやSNS上で「〇〇政策に賛成ですか?」と任意のアンケートを取ったところ、賛成が90%になった!
⇒ 罠:そのサイトやSNSを普段から利用しており、かつ「そのテーマに強い関心があってわざわざ投票ボタンを押した人」だけの意見に偏っています。日本全体の世論とは大きくかけ離れる危険があります。
4. これまで学んだバイアスとの位置づけ
データ収集の偏りを表す「選択バイアス(Selection Bias)」という大きな引き出しの中に、これまで学んだ重要用語が以下のように整理されます。
・脱落バイアス:追跡の「途中」で、対象者がいなくなってしまう偏り。
・欠測値バイアス:回答の拒否やエラーで、データが「空欄(NULL)」になる偏り。
・自己選択バイアス:データの「入り口」で、特定の熱量を持った人だけが自発的に集まる偏り。
5. DS検定形式:実戦4択クイズ
問:自己選択バイアスを防ぎ、母集団の実態を正しく推測するために、標本調査において最も重視されるサンプリング(データ抽出)の手法はどれか。
① 有意抽出(知り合いや集めやすい人から選ぶ)
② 無作為抽出(ランダムサンプリング)
③ ボランティアサンプリング(公募)
④ スノーボールサンプリング(紹介数珠つなぎ)
【 正解: ② 】
解説: 自発的な参加に頼る(③)と自己選択バイアスが直撃します。これを防ぐには、人間の意思が介在しない「無作為抽出(ランダムに選んで調査を依頼する)」を行うことが統計学的な大原則です。
6. まとめ
DS検定において「対象者が自発的に参加することによる偏り」というキーワードが出たら「自己選択バイアス」です。ネット上に転がっているビッグデータや口コミを分析する際には、常にこのバイアスが裏に潜んでいることを意識できるかどうかが、データサイエンティストの腕の見せ所です!