【DS検定対策】統計学の王道!どんな分布も正規分布に導く「中心極限定理」
統計学の世界で、データの分析を支える最も強力な法則の一つが「中心極限定理」です。なぜ多くのデータ分析で「正規分布」が前提とされるのか、その理由がここにあります。
1. 【 問題 】
母集団の分布がどのような形であっても、そこから抽出するサンプルサイズ(n)を大きくするにつれて、標本平均の分布はどのような分布に近づくでしょうか?
① ポアソン分布
② 指数分布
③ 正規分布
④ カイ二乗分布
2. 【 解答 】
3. 整理:「平均」を繰り返すと整う世界
元のデータがバラバラ(一様分布や偏った分布)でも、何度も「平均」をとって集めると、不思議ときれいな山の形(正規分布)になります。
【 中心極限定理のプロセス 】
サイコロの目(1〜6が均等に出る分布)など、形は自由。
[ 2. 標本抽出(サンプリング) ]
100個のサイコロを振って、その「平均値」を出す。
[ 3. 試行を繰り返す ]
★ ここが中心極限定理!
その「平均値」を何セットも記録してグラフにすると……
[ 4. 収束 ]
サンプルサイズ(n)が大きいほど、見事な「正規分布(ベルカーブ)」になる。
--------------------------
◎ 重要: 元の分布が正規分布でなくても、標本平均は正規分布に従うようになります。
4. なぜこれが重要なのか?
1. 推測統計の根拠: 母集団の正確な形がわからなくても、正規分布の性質を使って「母平均」を推定できるようになります。
2. 検定の基礎: t検定などの統計的検定が成り立つのは、この定理のおかげです。
3. 実務での安心感: サンプルサイズが十分に大きければ(一般にn=30以上など)、正規分布を前提とした分析手法が使いやすくなります。
5. DS検定形式:実戦4択クイズ
問:中心極限定理の説明として、不適切なものはどれか。
① 元の母集団がどのような分布であっても成り立つ。
② サンプルサイズが大きくなるほど、平均の分布は尖った形になる。
③ 標本平均の期待値は、母平均に等しい。
④ 母集団が正規分布でないと、標本平均は決して正規分布にならない。
【 正解: ④ 】
解説: 「母集団が正規分布でなくても、平均の分布は正規分布に近づく」のが中心極限定理の最大のポイントです。したがって④は誤りです。サンプルサイズが大きくなれば、どんな歪んだ分布から取った平均でも正規分布に収束します。
6. まとめ
DS検定において「サンプルが大きくなる」「標本平均の分布」「正規分布に近づく」というキーワードがセットで出たら、それは「中心極限定理」を指しています。統計分析の「免罪符」とも呼ばれるこの定理を、しっかり味方につけましょう!
z