忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】データのノイズを除去!「3シグマ法」による外れ値検出

分析を行う前に、異常な値(外れ値)を取り除くことは非常に重要です。その最もポピュラーな基準の一つが「3シグマ法」です。

1. 【 問題 】

統計学的な外れ値検出手法である「3シグマ法」の説明として、最も適切なものはどれでしょうか?

① データの平均値から標準偏差(σ)の1倍以上離れている値を外れ値とする
② データの中央値から四分位範囲の1.5倍以上離れている値を外れ値とする
③ データの平均値から標準偏差(σ)の3倍以上離れている値を外れ値とする
④ データの最大値と最小値の上位・下位3%を外れ値とする


2. 【 解答 】

正解: ③ データの平均値から標準偏差(σ)の3倍以上離れている値を外れ値とする

3. 整理:なぜ「3倍」なのか?

3シグマ法は、データが「正規分布」に従っているという前提に基づいています。正規分布には、平均(μ)と標準偏差(σ)に対して以下の性質があります。

【 正規分布とデータの収まる割合 】

・μ ± 1σ の範囲: 約 68.3% のデータが入る
・μ ± 2σ の範囲: 約 95.4% のデータが入る
・μ ± 3σ の範囲: 約 99.7% のデータが入る

--------------------------

結論: 3σを超える場所にデータがある確率はわずか「0.3%」しかありません。そのため、そこまで離れた値は「何か異常がある(外れ値)」とみなすのが妥当、という考え方です。

4. 注意点と使い分け

1. 正規分布が前提: データが正規分布から大きく外れている場合(極端に偏っている場合など)、3シグマ法は適切に機能しないことがあります。
2. 平均値への影響: そもそも「平均値」自体が外れ値に引っ張られやすい性質があるため、外れ値が多すぎるデータでは注意が必要です。
3. 他の手法(四分位法): 中央値を使う「箱ひげ図」の基準(1.5 × IQR)など、他の外れ値検出手法とセットで覚えておきましょう。


5. DS検定形式:実戦4択クイズ

問:正規分布において、平均から「標準偏差の2倍(2σ)」の範囲内に収まらないデータは、確率的に全体の約何パーセント存在するか。

① 約 32%   ② 約 5%   ③ 約 0.3%   ④ 約 0.1%

【 正解: ② 】

解説: ±2σの範囲には約95.4%のデータが含まれるため、その範囲外(外側)にあるデータは約4.6%(約5%)となります。3σ(0.3%)と混同しないように数値をセットで暗記しておきましょう。


6. まとめ

DS検定において「標準偏差の3倍」「99.7%」というキーワードが出たら「3シグマ法」を指しています。製造業の品質管理(シックスシグマ)などでも使われる非常に重要な概念ですので、必ずマスターしておきましょう!

PR

【DS検定対策】データ加工の基本:派生変数の定義と具体例

データ分析において、既存のデータセットには直接存在しない項目を、既存のデータから作り出す工程は非常に重要です。

【問題】

問:データ分析において、元のデータセットには直接存在しないが、既存の変数を組み合わせて計算や加工を施すことで新しく作成した変数のことを何と呼ぶか。

① 目的変数
② 派生変数
③ 外れ値
④ 欠損値

【解説】

正解: ②

既存の変数(生データ)から、計算や加工によって導き出された新しい項目を「派生変数」と呼びます。単なる数値の羅列から、分析に役立つ「意味のある情報」を取り出す重要なステップです。


■ 派生変数の具体例(図解イメージ)

[元のデータ] → [加工] → [派生変数]
・売上、客数 → 割り算 → 客単価
・生年月日 → 計算 → 年齢
・購入商品名 → 分類 → カテゴリフラグ


■ 特徴量エンジニアリングとの関係

特徴量エンジニアリングとは、モデルの精度を高めるためにデータを最適化する工程全体の総称です。派生変数の作成は、その工程の中に含まれる代表的な手法のひとつです。


まとめ:

「既存のデータから導出(計算)できるもの = 派生変数」という定義をしっかり覚えておきましょう!