【DS検定対策】NULLデータの罠!「欠測値」が引き起こす分析の偏り
データベースでおなじみの「空欄(NULL)」。データが足りないからといって、そのレコードを無視して分析すると、結果が完全に歪んでしまうことがあります。それが欠測によるバイアスです。
1. 【 問題 】
アンケートや実験データにおいて、回答の記入漏れや測定エラーなどの「欠測値(欠損値)」が多く含まれる場合、その欠測が発生した原因を考慮せずに、単に欠測値のあるデータを除外して(残ったデータだけで)分析を行うことで、結果に偏りが生じる現象を何と呼ぶでしょうか?
① 欠測値バイアス(欠損による偏り)
② 確定バイアス
③ 回答バイアス
④ 出版バイアス
2. 【 解答 】
3. 整理:なぜ「空欄(NULL)」を除外すると偏るのか?
データが消えた(欠測した)のには、高確率で「人間的な理由やシステムのクセ」が存在します。それを無視して `IS NOT NULL` で削ると、集団の実態を見誤ります。
【 欠測がバイアスを生む具体例 】
あるサービスの顧客満足度を調査した際、「年収」の項目に空欄(欠測)が非常に多かった。
⇒ 罠:実は「サービスに不満がある低所得層」が年収を書かずに回答(あるいは途中で離脱)していた場合、空欄をすべて除外して集計すると、「高所得者で、かつ満足している人」だけの偏ったデータになり、平均年収も満足度も実態より高く計算されてしまいます。
4. データサイエンティストはどう戦うか?(欠測値の処理)
試験や実務では、このバイアスを防ぐための「前処理(補完)」がセットで問われます。
1. リストワイズ削除(完全情報解析): 欠測があるレコードを丸ごと消す方法。欠測が完全にランダム(MCAR)でない限り、今回のようなバイアスが発生します。
2. 平均値補完 / 中央値補完: 空欄に、他のデータの平均値などを埋める方法。簡単ですが、データのばらつき(分散)が不自然に小さくなる弱点があります。
3. 多重代入法 / 予測モデルによる補完: 他のカラムの値から、機械学習などを使って空欄の数値を予測して埋める、より高度でバイアスが起きにくい手法です。
5. DS検定形式:実戦4択クイズ
問:データの欠測メカニズムにおいて、体重の重い人が体重の入力を拒否するように、「欠測するかどうかが、その欠測した値自体に依存している(他のデータを見ても欠測の理由を説明できない)」最も扱いが難しい欠測の性質を何と呼ぶか。
① MCAR(完全にランダムな欠測) ② MAR(条件付きでランダムな欠測) ③ MNAR(ランダムではない欠測) ④ 確定論的欠測
【 正解: ③ 】
解説: 「隠したい数値そのもののせいでデータが消える」状態をMNAR(Missing Not At Random:ランダムではない欠測)と呼びます。これがまさに、今回問題にした「最も強いバイアス」を引き起こす原因となります。
6. まとめ
DS検定において「欠測値を含むデータが多い場合に、それを単純に除外することで生じる偏り」というテーマが出たら「欠測値バイアス」の罠を疑いましょう。データが「ない」ということ自体に重要な意味(メッセージ)が隠されているケースが多いことを、しっかり意識しておきましょう!