【DS検定対策】NULLデータの罠！「欠測値」が引き起こす分析の偏り

データベースでおなじみの「空欄（NULL）」。データが足りないからといって、そのレコードを無視して分析すると、結果が完全に歪んでしまうことがあります。それが欠測によるバイアスです。

1. 【問題】

アンケートや実験データにおいて、回答の記入漏れや測定エラーなどの「欠測値（欠損値）」が多く含まれる場合、その欠測が発生した原因を考慮せずに、単に欠測値のあるデータを除外して（残ったデータだけで）分析を行うことで、結果に偏りが生じる現象を何と呼ぶでしょうか？

① 欠測値バイアス（欠損による偏り）
② 確定バイアス
③ 回答バイアス
④ 出版バイアス

2. 【解答】

正解： ① 欠測値バイアス（欠損による偏り）

3. 整理：なぜ「空欄（NULL）」を除外すると偏るのか？

データが消えた（欠測した）のには、高確率で「人間的な理由やシステムのクセ」が存在します。それを無視して `IS NOT NULL` で削ると、集団の実態を見誤ります。

【欠測がバイアスを生む具体例】

・事例：年収と顧客満足度のアンケート

あるサービスの顧客満足度を調査した際、「年収」の項目に空欄（欠測）が非常に多かった。

⇒ 罠：実は「サービスに不満がある低所得層」が年収を書かずに回答（あるいは途中で離脱）していた場合、空欄をすべて除外して集計すると、「高所得者で、かつ満足している人」だけの偏ったデータになり、平均年収も満足度も実態より高く計算されてしまいます。

4. データサイエンティストはどう戦うか？（欠測値の処理）

試験や実務では、このバイアスを防ぐための「前処理（補完）」がセットで問われます。
1. リストワイズ削除（完全情報解析）: 欠測があるレコードを丸ごと消す方法。欠測が完全にランダム（MCAR）でない限り、今回のようなバイアスが発生します。
2. 平均値補完 / 中央値補完: 空欄に、他のデータの平均値などを埋める方法。簡単ですが、データのばらつき（分散）が不自然に小さくなる弱点があります。
3. 多重代入法 / 予測モデルによる補完: 他のカラムの値から、機械学習などを使って空欄の数値を予測して埋める、より高度でバイアスが起きにくい手法です。

5. DS検定形式：実戦4択クイズ

問：データの欠測メカニズムにおいて、体重の重い人が体重の入力を拒否するように、「欠測するかどうかが、その欠測した値自体に依存している（他のデータを見ても欠測の理由を説明できない）」最も扱いが難しい欠測の性質を何と呼ぶか。

① MCAR（完全にランダムな欠測） ② MAR（条件付きでランダムな欠測） ③ MNAR（ランダムではない欠測） ④ 確定論的欠測

【正解： ③ 】

解説： 「隠したい数値そのもののせいでデータが消える」状態をMNAR（Missing Not At Random：ランダムではない欠測）と呼びます。これがまさに、今回問題にした「最も強いバイアス」を引き起こす原因となります。

6. まとめ

DS検定において「欠測値を含むデータが多い場合に、それを単純に除外することで生じる偏り」というテーマが出たら「欠測値バイアス」の罠を疑いましょう。データが「ない」ということ自体に重要な意味（メッセージ）が隠されているケースが多いことを、しっかり意識しておきましょう！