忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】外れ値をカットして実態を掴む!「トリム平均」の仕組み

すべての値を足して割る「平均値」は、極端な値(外れ値)が1つあるだけで数値が跳ね上がってしまいます。その弱点を克服するために、上下のデータを一定割合だけ切り落としてから計算するのがトリム平均です。

1. 【 問題 】

統計学において、データの集団から極端に大きい値(最大値側)と極端に小さい値(最小値側)を、あらかじめ決めた一定の割合(または個数)だけ除外した上で、残ったデータを用いて算出する平均値のことを何と呼ぶでしょうか?

① 加重平均
② 幾何平均
③ トリム平均(調整平均)
④ 移動平均


2. 【 解答 】

正解: ③ トリム平均(調整平均)

3. 整理:トリム平均の計算イメージ

例えば、スポーツの審査(フィギュアスケートやスキージャンプなど)で、審判全員がつけた点数のうち「最高点」と「最低点」を除外して残りの平均をとるルールがあります。これがまさにトリム平均の思想です。

【 具体例:10%トリム平均の場合 】

元のデータ:データを大きさ順に並べます。
[ 10, 45, 50, 52, 55, 56, 58, 60, 62, 990 ] (データ数 10個)

トリム処理:上下からそれぞれ10%(1個ずつ)をカットします。
[ 10 ][ 990 ] を除外!

平均を計算:残った中間の8個だけで平均を計算します。
[ 45, 50, 52, 55, 56, 58, 60, 62 ] の平均 = 54.75

--------------------------

ここがメリット:
普通に平均をとると「143.8」になってしまい実態が見えなくなりますが、トリム平均を使うことで、最後の「990」という異常値(外れ値)の影響を完全にシャットアウトし、集団の本来の特徴をきれいに抽出できます。

4. 代表値としての「強さ」の位置づけ

データが外れ値に対してどれくらい強いか(影響を受けにくいか)という性質を「頑健性(ロバスト性)」と呼びます。今回のトリム平均は、ちょうど以下のような中間的なキャラクターを持っています。

平均値:すべてのデータを使う(頑健性は一番低い
トリム平均:端っこだけを削って平均をとる(頑健性は中くらい
中央値:真ん中の1点(または2点)しか使わない(頑健性は一番高い


5. DS検定形式:実戦4択クイズ

問:データの分布が、外れ値のない綺麗な左右対称(正規分布)であるとき、「平均値」「中央値」「トリム平均」の3つの値の関係として、最も適切なものはどれか。

① 平均値 < トリム平均 < 中央値
② 中央値 < トリム平均 < 平均値
③ 3つの値はほぼ一致する
④ トリム平均だけが全く異なる値になる

【 正解: ③ 】

解説: 外れ値がなく、左右が綺麗に対称な分布であれば、上下を均等に削っても中心のバランスは変わりません。そのため、これら3つの代表値はほぼ同じ値に収束します。外れ値がある非対称な分布のときにこそ、トリム平均はその真価を発揮します。


6. まとめ

DS検定において「一定割合の異常値(外れ値)を排除して残りで平均を算出する」という記述が登場したら「トリム平均(調整平均)」です。実務のデータクレンジングや集計ロジックでも頻出の手法ですので、平均値・中央値との違いを意識して整理しておきましょう!

PR