【DS検定対策】異常値に負けないタフな指標!統計量の「堅牢性(ロバスト性)」
データの中に数件の異常値(外れ値)が混ざっただけで、計算結果がガラリと変わってしまうようでは実務で使えません。ノイズに対するタフさを表す言葉が「堅牢性」です。
1. 【 問題 】
統計学や機械学習において、データの中に極端な外れ値や異常値、測定エラーなどが含まれていても、その影響をあまり受けずに、集団の実態を正しく推測できる(統計量やモデルの)性質のことを何と呼ぶでしょうか?
① 局所性
② 堅牢性(頑健性 / ロバスト性)
③ 収束性
④ 柔軟性
2. 【 解答 】
3. 整理:これまでに学んだ指標の「堅牢性」チェック
これまでに登場した基本統計量を、「堅牢性が高いチーム(異常値に強い)」と「低いチーム(異常値に弱い)」に分けて整理すると、試験対策としても完璧です。
| グループ | 具体的な統計量 | なぜそう言えるのか? |
|---|---|---|
| 堅牢性が高い (ロバスト) |
中央値 四分位範囲(IQR) トリム平均 |
端っこのデータを無視したり、順位の真ん中だけを見たりするため、どれだけ極端な異常値が来ても数値がブレにくい。 |
| 堅牢性が低い (非ロバスト) |
平均値 範囲(レンジ) 分散 / 標準偏差 |
「すべての値を足す」「最大と最小の差をとる」「差を2乗する」といった計算を含むため、1つの異常値で全体が崩壊する。 |
5. DS検定形式:実戦4択クイズ
問:統計量だけでなく、データ分析モデル全体において「堅牢性(ロバスト性)」を確保するアプローチとして、最も不適切なものはどれか。
① 線形回帰において、外れ値の影響を抑える「ロバスト回帰(Huber損失など)」を適用する。
② 前処理の段階で、トリム平均などを応用して明確な異常値を除外(クレンジング)する。
③ 予測精度を極限まで高めるため、手元にある訓練データのノイズ(異常値)も含めて100%完璧にフィットするようモデルを複雑にする。
④ 外れ値に引きずられやすい「範囲(レンジ)」の代わりに、「四分位範囲(IQR)」を散布度の指標に採用する。
【 正解: ③ 】
解説: 訓練データのノイズまで完璧に合わせようとすると、以前に学んだ過学習(オーバーフィッティング)を引き起こし、未知のデータに対する堅牢性(汎化性能)がガタ落ちしてしまいます。ノイズを適度にいなす(無視する)ことこそが、堅牢性を保つ秘訣です。
6. まとめ
DS検定において「異常値やノイズの影響を受けにくい統計量や性質」というキーワードが出たら「堅牢性(頑健性、ロバスト性)」です。実務のシステム運用やデータ分析でも、「このシステム(または指標)はロバストか?」という視点は常に求められます。これまでに学んだ各指標の特徴とセットで記憶に刻んでおきましょう!