DS検定対策】データの特徴を見抜く!「代表値」と「散布度」の区別
データ全体が「だいたいどのあたりにあるか」を示す代表値。しかし、中にはデータの「広がり(ばらつき)」を表す別の指標が混ざっていることがあります。
1. 【 問題 】
統計学において、データ全体の中心的な傾向や特徴を1つの数値で表したものを「代表値」と呼びます。次の記述のうち、データの「代表値」として適切でないものはどれでしょうか?
① 平均値(ミーン)
② 中央値(メディアン)
③ 最頻値(モード)
④ レンジ(範囲)
2. 【 解答 】
3. 整理:「代表値」と「散布度」を峻別する
データの特徴を掴むための統計量は、大きく分けて以下の2グループに分類されます。ここを混同しないようにすることが試験対策の第一歩です。
【 2つの重要な統計量グループ 】
・平均値:すべての値を足してデータ数で割った値。全体を均した値。
・中央値:データを大きさ順に並べたときに中央にくる値。外れ値に強い。
・最頻値:データの中で最も多く出現する値。アンケートの回答などに便利。
■ 2. 散布度(データはどれくらいバラついているか?)
・レンジ(範囲):★これが正解!
「最大値 - 最小値」で計算され、データの「端から端までの広がり」を表します。
・分散 / 標準偏差:平均値からのばらつきの度合いを表します。
4. レンジ(範囲)のメリットと限界
1. メリット: 「最大値 - 最小値」を計算するだけなので、SQLの `MAX(col) - MIN(col)` のように非常にシンプルかつ高速に算出できます。
2. デメリット(限界): 最大値と最小値の2つの値しか見ないため、たった1つでも異常に大きい(または小さい)「外れ値」が混ざるだけで、全体の分布と関係なく数値が跳ね上がってしまう弱点があります。
5. DS検定形式:実戦4択クイズ
問:所得のデータのように、一部の極端な大富豪(外れ値)によって「平均値」が大きく引き上げられてしまうような非対称な分布において、集団の「一般的な真ん中」の実態を最も適切に表しやすい代表値はどれか。
① 平均値 ② 中央値 ③ レンジ ④ 標準偏差
【 正解: ② 】
解説: 外れ値の影響を強く受けてしまう平均値に対し、順位の真ん中を見る「中央値」は外れ値の影響を受けにくい(頑健である)という性質があります。これもデータ分析の現場や試験で非常によく問われる視点です。
6. まとめ
DS検定において「代表値として適切でないもの」を問われたら、データのばらつきを表す指標(レンジ、分散、標準偏差など)を探しましょう!指標の目的が「位置(真ん中)」を測るものか、「広がり(ばらつき)」を測るものか、常に意識して整理しておくと迷わなくなります!