忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】データのノイズを除去!「3シグマ法」による外れ値検出

分析を行う前に、異常な値(外れ値)を取り除くことは非常に重要です。その最もポピュラーな基準の一つが「3シグマ法」です。

1. 【 問題 】

統計学的な外れ値検出手法である「3シグマ法」の説明として、最も適切なものはどれでしょうか?

① データの平均値から標準偏差(σ)の1倍以上離れている値を外れ値とする
② データの中央値から四分位範囲の1.5倍以上離れている値を外れ値とする
③ データの平均値から標準偏差(σ)の3倍以上離れている値を外れ値とする
④ データの最大値と最小値の上位・下位3%を外れ値とする


2. 【 解答 】

正解: ③ データの平均値から標準偏差(σ)の3倍以上離れている値を外れ値とする

3. 整理:なぜ「3倍」なのか?

3シグマ法は、データが「正規分布」に従っているという前提に基づいています。正規分布には、平均(μ)と標準偏差(σ)に対して以下の性質があります。

【 正規分布とデータの収まる割合 】

・μ ± 1σ の範囲: 約 68.3% のデータが入る
・μ ± 2σ の範囲: 約 95.4% のデータが入る
・μ ± 3σ の範囲: 約 99.7% のデータが入る

--------------------------

結論: 3σを超える場所にデータがある確率はわずか「0.3%」しかありません。そのため、そこまで離れた値は「何か異常がある(外れ値)」とみなすのが妥当、という考え方です。

4. 注意点と使い分け

1. 正規分布が前提: データが正規分布から大きく外れている場合(極端に偏っている場合など)、3シグマ法は適切に機能しないことがあります。
2. 平均値への影響: そもそも「平均値」自体が外れ値に引っ張られやすい性質があるため、外れ値が多すぎるデータでは注意が必要です。
3. 他の手法(四分位法): 中央値を使う「箱ひげ図」の基準(1.5 × IQR)など、他の外れ値検出手法とセットで覚えておきましょう。


5. DS検定形式:実戦4択クイズ

問:正規分布において、平均から「標準偏差の2倍(2σ)」の範囲内に収まらないデータは、確率的に全体の約何パーセント存在するか。

① 約 32%   ② 約 5%   ③ 約 0.3%   ④ 約 0.1%

【 正解: ② 】

解説: ±2σの範囲には約95.4%のデータが含まれるため、その範囲外(外側)にあるデータは約4.6%(約5%)となります。3σ(0.3%)と混同しないように数値をセットで暗記しておきましょう。


6. まとめ

DS検定において「標準偏差の3倍」「99.7%」というキーワードが出たら「3シグマ法」を指しています。製造業の品質管理(シックスシグマ)などでも使われる非常に重要な概念ですので、必ずマスターしておきましょう!

PR