忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】データの「顔つき」を要約する!基本統計量の選び方

大量のデータをそのまま眺めても特徴は掴めません。データをいくつかの代表的な数値にギュッと凝縮したものが「基本統計量」です。

1. 【 問題 】

データ全体の中心的な位置を表す「代表値」の性質に関する記述として、最も適切なものはどれでしょうか?

① 平均値は、データの中に極端に大きな「外れ値」が1つでも混ざると、その値に強く引きずられて変動してしまう。
② 中央値は、すべてのデータの値を足し算して算出するため、外れ値の影響を最も強く受ける。
③ 最頻値(モード)は、テキストやアンケートの回答(名義尺度)のような、数値以外のデータには適用できない。
④ データの分布が左右非対称であっても、平均値、中央値、最頻値の3つは必ず完全に一致する。


2. 【 解答 】

正解: ① 平均値は、データの中に極端に大きな「外れ値」が1つでも混ざると、その値に強く引きずられて変動してしまう。

3. 整理:基本統計量の「外れ値」への強さ(頑健性)

試験や実務でデータを見る際、各統計量が「外れ値(極端な値)」に対してどう反応するかを知っておくことが非常に重要です。

【 代表値のキャラクター分け 】

平均値(外れ値に弱い)
すべての値を合計して割るため、大富豪が1人混ざるだけで全体の平均が一気に跳ね上がります。

中央値(外れ値に強い:堅牢 / ロバスト)
順位の真ん中を見るだけなので、端っこの値がどれだけ極端になろうとも、真ん中の値自体はほとんど変わりません。

最頻値(外れ値に強い&文字もいける)
最も票が集まった場所を見るため、外れ値の影響を受けません。また、「好きな色:赤、青、赤」なら最頻値は「赤」となり、数値以外にも使えます。

4. データの「歪み」と代表値の並び(ここがよく出る!)

例えば、日本の「所得データ」のように、一部の高額所得者によって右側に裾が長ーく伸びたグラフ(右に歪んだ分布)では、3つの代表値の大きさに以下のような関係性が生まれます。

最頻値 < 中央値 < 平均値

最も多くの人がいる山(最頻値)に対し、平均値は大富豪たちに右側へグイグイ引っ張られて一番大きな値になります。中央値はその中間に位置します。この位置関係のパターンは、グラフのイメージと一緒に頭に入れておきましょう!


5. DS検定形式:実戦4択クイズ

問:標準偏差を平均値で割ることで算出され、単位が異なるデータ同士(例:身長のばらつきと体重のばらつき)を、公平に比較したい場合に用いられる散布度の指標はどれか。

① 分散   ② 四分位範囲(IQR)   ③ 変動係数(CV)   ④ 標準誤差

【 正解: ③ 】

解説: 「標準偏差 ÷ 平均値」で求められる指標を「変動係数(へんどうけいすう)」と呼びます。平均値の大きさに比例してばらつきも大きくなるようなデータを、相対的に比較したいときの定番統計量です。


6. まとめ

DS検定において「基本統計量」の問題が出たら、それぞれの指標の計算方法と「外れ値に対する強さ」を思い浮かべましょう。正規分布のように綺麗な左右対称のときだけ「平均=中央=最頻」になり、歪みがあるとズレる、という原則を押さえておけばバッチリです!

PR