忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

DS検定対策】データの特徴を見抜く!「代表値」と「散布度」の区別

データ全体が「だいたいどのあたりにあるか」を示す代表値。しかし、中にはデータの「広がり(ばらつき)」を表す別の指標が混ざっていることがあります。

1. 【 問題 】

統計学において、データ全体の中心的な傾向や特徴を1つの数値で表したものを「代表値」と呼びます。次の記述のうち、データの「代表値」として適切でないものはどれでしょうか?

① 平均値(ミーン)
② 中央値(メディアン)
③ 最頻値(モード)
④ レンジ(範囲)


2. 【 解答 】

正解: ④ レンジ(範囲)

3. 整理:「代表値」と「散布度」を峻別する

データの特徴を掴むための統計量は、大きく分けて以下の2グループに分類されます。ここを混同しないようにすることが試験対策の第一歩です。

【 2つの重要な統計量グループ 】

1. 代表値(データの中心はどこか?)
平均値:すべての値を足してデータ数で割った値。全体を均した値。
中央値:データを大きさ順に並べたときに中央にくる値。外れ値に強い。
最頻値:データの中で最も多く出現する値。アンケートの回答などに便利。

2. 散布度(データはどれくらいバラついているか?)
レンジ(範囲)★これが正解!
「最大値 - 最小値」で計算され、データの「端から端までの広がり」を表します。
分散 / 標準偏差:平均値からのばらつきの度合いを表します。

4. レンジ(範囲)のメリットと限界

1. メリット: 「最大値 - 最小値」を計算するだけなので、SQLの `MAX(col) - MIN(col)` のように非常にシンプルかつ高速に算出できます。
2. デメリット(限界): 最大値と最小値の2つの値しか見ないため、たった1つでも異常に大きい(または小さい)「外れ値」が混ざるだけで、全体の分布と関係なく数値が跳ね上がってしまう弱点があります。


5. DS検定形式:実戦4択クイズ

問:所得のデータのように、一部の極端な大富豪(外れ値)によって「平均値」が大きく引き上げられてしまうような非対称な分布において、集団の「一般的な真ん中」の実態を最も適切に表しやすい代表値はどれか。

① 平均値   ② 中央値   ③ レンジ   ④ 標準偏差

【 正解: ② 】

解説: 外れ値の影響を強く受けてしまう平均値に対し、順位の真ん中を見る「中央値」は外れ値の影響を受けにくい(頑健である)という性質があります。これもデータ分析の現場や試験で非常によく問われる視点です。


6. まとめ

DS検定において「代表値として適切でないもの」を問われたら、データのばらつきを表す指標(レンジ、分散、標準偏差など)を探しましょう!指標の目的が「位置(真ん中)」を測るものか、「広がり(ばらつき)」を測るものか、常に意識して整理しておくと迷わなくなります!

PR