【機械学習の知識】数式なしでわかる統計モーメントの仕組みとアルゴリズム
データの集まり(分布)がどのような形をしているかを数値で表現したい。平均値や分散だけでなく、左右の非対称さや尖り具合までを系統的に捉えるための概念が、統計モーメント(積率)です。
1. 【 概要 】
統計モーメントとは、確率分布やデータの「形状の特徴」を段階的に切り出すための指標です。1次、2次、3次、4次と次数が上がるにつれて、データの中心位置から始まり、広がり方、非対称性、尖り具合といった、より詳細な形状の情報が得られるようになります。
2. 【 基本アルゴリズム 】
データの重心がどこにあるかを表す、最も基本的な指標です。
2次モーメント ・・ ちらばり(分散)
データが中心(平均)からどれくらい広く散らばっているかを表します。
3次モーメント ・• 歪度(わいど)
分布の左右の「非対称さ」や傾き具合を表します。
4次モーメント ・• 尖度(せんど)
分布の頂点がどれくらい「尖っているか」、または裾野がどれくらい厚いかを表します。
3. 整理:各次数の具体的な処理内容
統計モーメントは、次数ごとにデータの異なる特徴を計算します。それぞれのステップと意味を具体的に見ていきましょう。
【 各モーメントの具体的な処理内容 】
すべてのデータを足し合わせて、データの個数で割ることで、分布の「重心(中心の位置)」を特定します。
・2次モーメント(分散)の処理
各データが「平均値からどれだけ離れているか(偏差)」を計算し、それを2乗したものの平均をとります。2乗することで、中心からの「距離(ちらばり)」を正の数として正しく評価できます。
・3次モーメント(歪度)の処理
平均からの偏差を3乗して計算します。3乗するとプラスとマイナスの符号が残るため、分布の裾が右側に伸びているか、左側に伸びているかという「非対称さ」が分かります。
・4次モーメント(尖度)の処理
平均からの偏差を4乗して計算します。4乗することで、中心から極端に離れたデータ(外れ値)の影響が強調され、分布の頂点の「尖り具合」や「裾野の厚み(外れ値の出やすさ)」を浮き彫りにします。
4. 関連して押さえたい「機械学習(特徴量エンジニアリング)への応用」
この統計モーメントは、機械学習において非常に重要な「特徴量エンジニアリング」の技術として応用されています。
例えば、音声データやセンサーデータ(時系列データ)を機械学習モデルに入力する際、そのままの波形データでは複雑すぎて学習がうまくいきません。そこで、一定時間ごとのデータの「平均(1次)」「分散(2次)」「歪度(3次)」「尖度(4次)」を計算し、波形の特徴をぎゅっと凝縮した数値(特徴量)に変換してからモデルに投入します。
このように、統計モーメントを使うことで、複雑なデータの性質をシンプルかつ強力に表現できるようになります。
5. 補足:正規分布を基準にする「歪度と尖度」の数値
データ分析で3次・4次モーメント(歪度・尖度)を扱う際、最も美しい対称の形である「正規分布」が基準になります。
・歪度:完全に左右対称な正規分布では「0」になります。右に裾が長い分布(左側にデータが集中)ならプラス、左に裾が長い分布ならマイナスの値をとります。
・尖度:数式の定義の仕方にもよりますが(正規分布の値を引く補正を行う場合)、正規分布の尖度を「0」とします。正規分布より頂点が鋭く尖っている分布はプラス(正)、平べったい分布はマイナス(負)の値をとるため、視覚的にデータの尖り具合を判断できます。
6. まとめ
データサイエンスや機械学習の現場において「データの形状を1次から4次の段階的な特徴で表す手法」と言えば、この統計モーメントです。中心(1次)、ちらばり(2次)、歪度(3次)、尖度(4次)というアルゴリズムの階層的な繋がりを理解し、データの性質を深く見極められるようになりましょう!