忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】消えたデータの声を聴け!「脱落バイアス」の罠

分析対象者が途中でいなくなってしまう。その「離脱」自体が偏りを生み出す原因になる。それが脱落バイアスです。

1. 【 問題 】

データ収集や実験のプロセスにおいて、調査対象者が「途中で離脱(脱落)」したことにより、最後まで残った対象者だけのデータに偏りが生じ、正しい分析結果が得られなくなる現象(バイアス)を何と呼ぶでしょうか?

① 生存者バイアス(サバイバーシップ・バイアス)
② 脱落バイアス(アトリッション・バイアス)
③ 回答バイアス
④ 確証バイアス


2. 【 解答 】

正解: ② 脱落バイアス(アトリッション・バイアス)

3. 整理:なぜ「脱落」がバイアスを生むのか?

もし、脱落(離脱)が完全にランダムであれば大きな問題にはなりませんが、現実には「離脱するだけの理由」がそこにあるため、結果が歪みます。

【 ビジネスや研究での具体例 】

事例1:教育アプリの効果測定
難関資格の学習アプリで、1ヶ月継続した人の合格率が「90%」だった!
:実は「内容が難しすぎて挫折した人」が途中で大量に脱落(アンインストール)していた場合、最後まで残った「元から優秀な人」だけの結果を見ている可能性があります。

事例2:新薬の臨床試験
ある薬を3ヶ月服用してもらう実験で、副作用が非常に強かった人が途中で通院をやめてしまった。
:最終的に無事完走した人のデータだけを集計すると、「副作用が少なくて効果が高い魔法の薬」に見えてしまう危険があります。

4. 関連して押さえたい「選択バイアス」

脱落バイアスは、統計学における「選択バイアス(Selection Bias)」という大きな分類の1つです。
似た言葉に、歴史的なエピソード(爆撃から生還した戦闘機の補強など)で有名な「生存者バイアス」がありますが、生存者バイアスが「すでに生き残ったもの(結果)」だけを後から見てしまうことに対し、脱落バイアスは「時間の経過とともに進行形で対象者がいなくなっていくプロセス(縦断調査など)」に注目する点が特徴です。


5. DS検定形式:実戦4択クイズ

問:WebサービスのA/Bテストにおいて、新機能(B案)のページが非常に重く、読み込みに時間がかかったため、多くのユーザーが途中でブラウザを閉じて離脱してしまった。この状況で、ページを最後まで読み込んでコンバージョン(購入)したユーザーだけのデータで効果測定を行う際に発生するバイアスとして最も適切なものはどれか。

① 確証バイアス   ② 脱落バイアス   ③ 社会的妥当性バイアス   ④ 出版バイアス

【 正解: ② 】

解説: 「読み込みが遅くてイライラして途中で離脱した人」の存在を無視し、最後まで粘り強く待ってくれた熱狂的なユーザーだけの数値で評価してしまうため、これも典型的な脱落バイアスです。


6. まとめ

DS検定やデータ分析の現場において「途中で対象者が離脱したことで生じる偏り」という記述が出たら、それは「脱落バイアス」を指します。データサイエンスでは、手元にある綺麗なデータだけでなく、「消えてしまったデータ(離脱した人)の理由」にこそ、システム改善の最大のヒントが隠されていることを忘れないようにしましょう!

PR