忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】異常値に負けないタフな指標!統計量の「堅牢性(ロバスト性)」

データの中に数件の異常値(外れ値)が混ざっただけで、計算結果がガラリと変わってしまうようでは実務で使えません。ノイズに対するタフさを表す言葉が「堅牢性」です。

1. 【 問題 】

統計学や機械学習において、データの中に極端な外れ値や異常値、測定エラーなどが含まれていても、その影響をあまり受けずに、集団の実態を正しく推測できる(統計量やモデルの)性質のことを何と呼ぶでしょうか?

① 局所性
② 堅牢性(頑健性 / ロバスト性)
③ 収束性
④ 柔軟性


2. 【 解答 】

正解: ② 堅牢性(頑健性 / ロバスト性)

3. 整理:これまでに学んだ指標の「堅牢性」チェック

これまでに登場した基本統計量を、「堅牢性が高いチーム(異常値に強い)」と「低いチーム(異常値に弱い)」に分けて整理すると、試験対策としても完璧です。

グループ具体的な統計量なぜそう言えるのか?
堅牢性が高い
(ロバスト)
中央値
四分位範囲(IQR)
トリム平均
端っこのデータを無視したり、順位の真ん中だけを見たりするため、どれだけ極端な異常値が来ても数値がブレにくい。
堅牢性が低い
(非ロバスト)
平均値
範囲(レンジ)
分散 / 標準偏差
「すべての値を足す」「最大と最小の差をとる」「差を2乗する」といった計算を含むため、1つの異常値で全体が崩壊する。

5. DS検定形式:実戦4択クイズ

問:統計量だけでなく、データ分析モデル全体において「堅牢性(ロバスト性)」を確保するアプローチとして、最も不適切なものはどれか。

① 線形回帰において、外れ値の影響を抑える「ロバスト回帰(Huber損失など)」を適用する。
② 前処理の段階で、トリム平均などを応用して明確な異常値を除外(クレンジング)する。
③ 予測精度を極限まで高めるため、手元にある訓練データのノイズ(異常値)も含めて100%完璧にフィットするようモデルを複雑にする。
④ 外れ値に引きずられやすい「範囲(レンジ)」の代わりに、「四分位範囲(IQR)」を散布度の指標に採用する。

【 正解: ③ 】

解説: 訓練データのノイズまで完璧に合わせようとすると、以前に学んだ過学習(オーバーフィッティング)を引き起こし、未知のデータに対する堅牢性(汎化性能)がガタ落ちしてしまいます。ノイズを適度にいなす(無視する)ことこそが、堅牢性を保つ秘訣です。


6. まとめ

DS検定において「異常値やノイズの影響を受けにくい統計量や性質」というキーワードが出たら「堅牢性(頑健性、ロバスト性)」です。実務のシステム運用やデータ分析でも、「このシステム(または指標)はロバストか?」という視点は常に求められます。これまでに学んだ各指標の特徴とセットで記憶に刻んでおきましょう!


PR

【DS検定対策】外れ値をカットして実態を掴む!「トリム平均」の仕組み

すべての値を足して割る「平均値」は、極端な値(外れ値)が1つあるだけで数値が跳ね上がってしまいます。その弱点を克服するために、上下のデータを一定割合だけ切り落としてから計算するのがトリム平均です。

1. 【 問題 】

統計学において、データの集団から極端に大きい値(最大値側)と極端に小さい値(最小値側)を、あらかじめ決めた一定の割合(または個数)だけ除外した上で、残ったデータを用いて算出する平均値のことを何と呼ぶでしょうか?

① 加重平均
② 幾何平均
③ トリム平均(調整平均)
④ 移動平均


2. 【 解答 】

正解: ③ トリム平均(調整平均)

3. 整理:トリム平均の計算イメージ

例えば、スポーツの審査(フィギュアスケートやスキージャンプなど)で、審判全員がつけた点数のうち「最高点」と「最低点」を除外して残りの平均をとるルールがあります。これがまさにトリム平均の思想です。

【 具体例:10%トリム平均の場合 】

元のデータ:データを大きさ順に並べます。
[ 10, 45, 50, 52, 55, 56, 58, 60, 62, 990 ] (データ数 10個)

トリム処理:上下からそれぞれ10%(1個ずつ)をカットします。
[ 10 ][ 990 ] を除外!

平均を計算:残った中間の8個だけで平均を計算します。
[ 45, 50, 52, 55, 56, 58, 60, 62 ] の平均 = 54.75

--------------------------

ここがメリット:
普通に平均をとると「143.8」になってしまい実態が見えなくなりますが、トリム平均を使うことで、最後の「990」という異常値(外れ値)の影響を完全にシャットアウトし、集団の本来の特徴をきれいに抽出できます。

4. 代表値としての「強さ」の位置づけ

データが外れ値に対してどれくらい強いか(影響を受けにくいか)という性質を「頑健性(ロバスト性)」と呼びます。今回のトリム平均は、ちょうど以下のような中間的なキャラクターを持っています。

平均値:すべてのデータを使う(頑健性は一番低い
トリム平均:端っこだけを削って平均をとる(頑健性は中くらい
中央値:真ん中の1点(または2点)しか使わない(頑健性は一番高い


5. DS検定形式:実戦4択クイズ

問:データの分布が、外れ値のない綺麗な左右対称(正規分布)であるとき、「平均値」「中央値」「トリム平均」の3つの値の関係として、最も適切なものはどれか。

① 平均値 < トリム平均 < 中央値
② 中央値 < トリム平均 < 平均値
③ 3つの値はほぼ一致する
④ トリム平均だけが全く異なる値になる

【 正解: ③ 】

解説: 外れ値がなく、左右が綺麗に対称な分布であれば、上下を均等に削っても中心のバランスは変わりません。そのため、これら3つの代表値はほぼ同じ値に収束します。外れ値がある非対称な分布のときにこそ、トリム平均はその真価を発揮します。


6. まとめ

DS検定において「一定割合の異常値(外れ値)を排除して残りで平均を算出する」という記述が登場したら「トリム平均(調整平均)」です。実務のデータクレンジングや集計ロジックでも頻出の手法ですので、平均値・中央値との違いを意識して整理しておきましょう!

【DS検定対策】「わざわざ回答する人」の偏り!自己選択バイアスの罠

「アンケートにご協力ください」と言われて、進んで回答してくれるのはどんな人でしょうか?そこには最初から強い偏りが存在します。それが自己選択バイアスです。

1. 【 問題 】

統計調査や実験において、調査主体がランダムに対象者を選ぶ(無作為抽出する)のではなく、対象者が「自分の意思で進んで参加(自己選択)する」ことによって、集まったデータに強い偏りが生じる現象を何と呼ぶでしょうか?

① 自己選択バイアス
② 観察者バイアス
③ 回避バイアス
④ 出版バイアス


2. 【 解答 】

正解: ① 自己選択バイアス

3. 整理:なぜ「自分の意思」がバイアスを生むのか?

インターネット上の多くのデータは、このバイアスの影響を強く受けています。実務でもよくある具体例を見てみましょう。

【 自己選択バイアスの具体例 】

事例1:ECサイトの製品レビュー(星評価)
ある商品のレビューを見ると、「星5(大満足)」と「星1(大不満)」ばかりで、中間の星3が極端に少ない。
:普通に満足して何も不満がない「大多数のユーザー」は、わざわざレビューを書くという面倒な行動を起こしません。レビューを書くのは「猛烈に感動した人」か「激怒している人」だけになりがちです(自己選択)。

事例2:ネットの政治世論調査
特定のニュースサイトやSNS上で「〇〇政策に賛成ですか?」と任意のアンケートを取ったところ、賛成が90%になった!
:そのサイトやSNSを普段から利用しており、かつ「そのテーマに強い関心があってわざわざ投票ボタンを押した人」だけの意見に偏っています。日本全体の世論とは大きくかけ離れる危険があります。

4. これまで学んだバイアスとの位置づけ

データ収集の偏りを表す「選択バイアス(Selection Bias)」という大きな引き出しの中に、これまで学んだ重要用語が以下のように整理されます。

脱落バイアス:追跡の「途中」で、対象者がいなくなってしまう偏り。
欠測値バイアス:回答の拒否やエラーで、データが「空欄(NULL)」になる偏り。
自己選択バイアス:データの「入り口」で、特定の熱量を持った人だけが自発的に集まる偏り。


5. DS検定形式:実戦4択クイズ

問:自己選択バイアスを防ぎ、母集団の実態を正しく推測するために、標本調査において最も重視されるサンプリング(データ抽出)の手法はどれか。

① 有意抽出(知り合いや集めやすい人から選ぶ)
② 無作為抽出(ランダムサンプリング)
③ ボランティアサンプリング(公募)
④ スノーボールサンプリング(紹介数珠つなぎ)

【 正解: ② 】

解説: 自発的な参加に頼る(③)と自己選択バイアスが直撃します。これを防ぐには、人間の意思が介在しない「無作為抽出(ランダムに選んで調査を依頼する)」を行うことが統計学的な大原則です。


6. まとめ

DS検定において「対象者が自発的に参加することによる偏り」というキーワードが出たら「自己選択バイアス」です。ネット上に転がっているビッグデータや口コミを分析する際には、常にこのバイアスが裏に潜んでいることを意識できるかどうかが、データサイエンティストの腕の見せ所です!

【DS検定対策】NULLデータの罠!「欠測値」が引き起こす分析の偏り

データベースでおなじみの「空欄(NULL)」。データが足りないからといって、そのレコードを無視して分析すると、結果が完全に歪んでしまうことがあります。それが欠測によるバイアスです。

1. 【 問題 】

アンケートや実験データにおいて、回答の記入漏れや測定エラーなどの「欠測値(欠損値)」が多く含まれる場合、その欠測が発生した原因を考慮せずに、単に欠測値のあるデータを除外して(残ったデータだけで)分析を行うことで、結果に偏りが生じる現象を何と呼ぶでしょうか?

① 欠測値バイアス(欠損による偏り)
② 確定バイアス
③ 回答バイアス
④ 出版バイアス


2. 【 解答 】

正解: ① 欠測値バイアス(欠損による偏り)

3. 整理:なぜ「空欄(NULL)」を除外すると偏るのか?

データが消えた(欠測した)のには、高確率で「人間的な理由やシステムのクセ」が存在します。それを無視して `IS NOT NULL` で削ると、集団の実態を見誤ります。

【 欠測がバイアスを生む具体例 】

事例:年収と顧客満足度のアンケート
あるサービスの顧客満足度を調査した際、「年収」の項目に空欄(欠測)が非常に多かった。
:実は「サービスに不満がある低所得層」が年収を書かずに回答(あるいは途中で離脱)していた場合、空欄をすべて除外して集計すると、「高所得者で、かつ満足している人」だけの偏ったデータになり、平均年収も満足度も実態より高く計算されてしまいます。

4. データサイエンティストはどう戦うか?(欠測値の処理)

試験や実務では、このバイアスを防ぐための「前処理(補完)」がセットで問われます。
1. リストワイズ削除(完全情報解析): 欠測があるレコードを丸ごと消す方法。欠測が完全にランダム(MCAR)でない限り、今回のようなバイアスが発生します。
2. 平均値補完 / 中央値補完: 空欄に、他のデータの平均値などを埋める方法。簡単ですが、データのばらつき(分散)が不自然に小さくなる弱点があります。
3. 多重代入法 / 予測モデルによる補完: 他のカラムの値から、機械学習などを使って空欄の数値を予測して埋める、より高度でバイアスが起きにくい手法です。


5. DS検定形式:実戦4択クイズ

問:データの欠測メカニズムにおいて、体重の重い人が体重の入力を拒否するように、「欠測するかどうかが、その欠測した値自体に依存している(他のデータを見ても欠測の理由を説明できない)」最も扱いが難しい欠測の性質を何と呼ぶか。

① MCAR(完全にランダムな欠測)   ② MAR(条件付きでランダムな欠測)   ③ MNAR(ランダムではない欠測)   ④ 確定論的欠測

【 正解: ③ 】

解説: 「隠したい数値そのもののせいでデータが消える」状態をMNAR(Missing Not At Random:ランダムではない欠測)と呼びます。これがまさに、今回問題にした「最も強いバイアス」を引き起こす原因となります。


6. まとめ

DS検定において「欠測値を含むデータが多い場合に、それを単純に除外することで生じる偏り」というテーマが出たら「欠測値バイアス」の罠を疑いましょう。データが「ない」ということ自体に重要な意味(メッセージ)が隠されているケースが多いことを、しっかり意識しておきましょう!


【DS検定対策】消えたデータの声を聴け!「脱落バイアス」の罠

分析対象者が途中でいなくなってしまう。その「離脱」自体が偏りを生み出す原因になる。それが脱落バイアスです。

1. 【 問題 】

データ収集や実験のプロセスにおいて、調査対象者が「途中で離脱(脱落)」したことにより、最後まで残った対象者だけのデータに偏りが生じ、正しい分析結果が得られなくなる現象(バイアス)を何と呼ぶでしょうか?

① 生存者バイアス(サバイバーシップ・バイアス)
② 脱落バイアス(アトリッション・バイアス)
③ 回答バイアス
④ 確証バイアス


2. 【 解答 】

正解: ② 脱落バイアス(アトリッション・バイアス)

3. 整理:なぜ「脱落」がバイアスを生むのか?

もし、脱落(離脱)が完全にランダムであれば大きな問題にはなりませんが、現実には「離脱するだけの理由」がそこにあるため、結果が歪みます。

【 ビジネスや研究での具体例 】

事例1:教育アプリの効果測定
難関資格の学習アプリで、1ヶ月継続した人の合格率が「90%」だった!
:実は「内容が難しすぎて挫折した人」が途中で大量に脱落(アンインストール)していた場合、最後まで残った「元から優秀な人」だけの結果を見ている可能性があります。

事例2:新薬の臨床試験
ある薬を3ヶ月服用してもらう実験で、副作用が非常に強かった人が途中で通院をやめてしまった。
:最終的に無事完走した人のデータだけを集計すると、「副作用が少なくて効果が高い魔法の薬」に見えてしまう危険があります。

4. 関連して押さえたい「選択バイアス」

脱落バイアスは、統計学における「選択バイアス(Selection Bias)」という大きな分類の1つです。
似た言葉に、歴史的なエピソード(爆撃から生還した戦闘機の補強など)で有名な「生存者バイアス」がありますが、生存者バイアスが「すでに生き残ったもの(結果)」だけを後から見てしまうことに対し、脱落バイアスは「時間の経過とともに進行形で対象者がいなくなっていくプロセス(縦断調査など)」に注目する点が特徴です。


5. DS検定形式:実戦4択クイズ

問:WebサービスのA/Bテストにおいて、新機能(B案)のページが非常に重く、読み込みに時間がかかったため、多くのユーザーが途中でブラウザを閉じて離脱してしまった。この状況で、ページを最後まで読み込んでコンバージョン(購入)したユーザーだけのデータで効果測定を行う際に発生するバイアスとして最も適切なものはどれか。

① 確証バイアス   ② 脱落バイアス   ③ 社会的妥当性バイアス   ④ 出版バイアス

【 正解: ② 】

解説: 「読み込みが遅くてイライラして途中で離脱した人」の存在を無視し、最後まで粘り強く待ってくれた熱狂的なユーザーだけの数値で評価してしまうため、これも典型的な脱落バイアスです。


6. まとめ

DS検定やデータ分析の現場において「途中で対象者が離脱したことで生じる偏り」という記述が出たら、それは「脱落バイアス」を指します。データサイエンスでは、手元にある綺麗なデータだけでなく、「消えてしまったデータ(離脱した人)の理由」にこそ、システム改善の最大のヒントが隠されていることを忘れないようにしましょう!