【DS検定対策】データのノイズを除去!「3シグマ法」による外れ値検出
分析を行う前に、異常な値(外れ値)を取り除くことは非常に重要です。その最もポピュラーな基準の一つが「3シグマ法」です。
1. 【 問題 】
統計学的な外れ値検出手法である「3シグマ法」の説明として、最も適切なものはどれでしょうか?
① データの平均値から標準偏差(σ)の1倍以上離れている値を外れ値とする
② データの中央値から四分位範囲の1.5倍以上離れている値を外れ値とする
③ データの平均値から標準偏差(σ)の3倍以上離れている値を外れ値とする
④ データの最大値と最小値の上位・下位3%を外れ値とする
2. 【 解答 】
3. 整理:なぜ「3倍」なのか?
3シグマ法は、データが「正規分布」に従っているという前提に基づいています。正規分布には、平均(μ)と標準偏差(σ)に対して以下の性質があります。
【 正規分布とデータの収まる割合 】
・μ ± 2σ の範囲: 約 95.4% のデータが入る
・μ ± 3σ の範囲: 約 99.7% のデータが入る
--------------------------
★ 結論: 3σを超える場所にデータがある確率はわずか「0.3%」しかありません。そのため、そこまで離れた値は「何か異常がある(外れ値)」とみなすのが妥当、という考え方です。
4. 注意点と使い分け
1. 正規分布が前提: データが正規分布から大きく外れている場合(極端に偏っている場合など)、3シグマ法は適切に機能しないことがあります。
2. 平均値への影響: そもそも「平均値」自体が外れ値に引っ張られやすい性質があるため、外れ値が多すぎるデータでは注意が必要です。
3. 他の手法(四分位法): 中央値を使う「箱ひげ図」の基準(1.5 × IQR)など、他の外れ値検出手法とセットで覚えておきましょう。
5. DS検定形式:実戦4択クイズ
問:正規分布において、平均から「標準偏差の2倍(2σ)」の範囲内に収まらないデータは、確率的に全体の約何パーセント存在するか。
① 約 32% ② 約 5% ③ 約 0.3% ④ 約 0.1%
【 正解: ② 】
解説: ±2σの範囲には約95.4%のデータが含まれるため、その範囲外(外側)にあるデータは約4.6%(約5%)となります。3σ(0.3%)と混同しないように数値をセットで暗記しておきましょう。
6. まとめ
DS検定において「標準偏差の3倍」「99.7%」というキーワードが出たら「3シグマ法」を指しています。製造業の品質管理(シックスシグマ)などでも使われる非常に重要な概念ですので、必ずマスターしておきましょう!