忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【機械学習の知識】数式なしでわかる統計モーメントの仕組みとアルゴリズム

データの集まり(分布)がどのような形をしているかを数値で表現したい。平均値や分散だけでなく、左右の非対称さや尖り具合までを系統的に捉えるための概念が、統計モーメント(積率)です。

1. 【 概要 】

統計モーメントとは、確率分布やデータの「形状の特徴」を段階的に切り出すための指標です。1次、2次、3次、4次と次数が上がるにつれて、データの中心位置から始まり、広がり方、非対称性、尖り具合といった、より詳細な形状の情報が得られるようになります。


2. 【 基本アルゴリズム 】

1次モーメント ・・ 中心の位置の分布(平均値)
データの重心がどこにあるかを表す、最も基本的な指標です。

2次モーメント ・・ ちらばり(分散)
データが中心(平均)からどれくらい広く散らばっているかを表します。

3次モーメント ・• 歪度(わいど)
分布の左右の「非対称さ」や傾き具合を表します。

4次モーメント ・• 尖度(せんど)
分布の頂点がどれくらい「尖っているか」、または裾野がどれくらい厚いかを表します。

3. 整理:各次数の具体的な処理内容

統計モーメントは、次数ごとにデータの異なる特徴を計算します。それぞれのステップと意味を具体的に見ていきましょう。

【 各モーメントの具体的な処理内容 】

1次モーメント(平均値)の処理
すべてのデータを足し合わせて、データの個数で割ることで、分布の「重心(中心の位置)」を特定します。

2次モーメント(分散)の処理
各データが「平均値からどれだけ離れているか(偏差)」を計算し、それを2乗したものの平均をとります。2乗することで、中心からの「距離(ちらばり)」を正の数として正しく評価できます。

3次モーメント(歪度)の処理
平均からの偏差を3乗して計算します。3乗するとプラスとマイナスの符号が残るため、分布の裾が右側に伸びているか、左側に伸びているかという「非対称さ」が分かります。

4次モーメント(尖度)の処理
平均からの偏差を4乗して計算します。4乗することで、中心から極端に離れたデータ(外れ値)の影響が強調され、分布の頂点の「尖り具合」や「裾野の厚み(外れ値の出やすさ)」を浮き彫りにします。

4. 関連して押さえたい「機械学習(特徴量エンジニアリング)への応用」

この統計モーメントは、機械学習において非常に重要な「特徴量エンジニアリング」の技術として応用されています。

例えば、音声データやセンサーデータ(時系列データ)を機械学習モデルに入力する際、そのままの波形データでは複雑すぎて学習がうまくいきません。そこで、一定時間ごとのデータの「平均(1次)」「分散(2次)」「歪度(3次)」「尖度(4次)」を計算し、波形の特徴をぎゅっと凝縮した数値(特徴量)に変換してからモデルに投入します。

このように、統計モーメントを使うことで、複雑なデータの性質をシンプルかつ強力に表現できるようになります。


5. 補足:正規分布を基準にする「歪度と尖度」の数値

データ分析で3次・4次モーメント(歪度・尖度)を扱う際、最も美しい対称の形である「正規分布」が基準になります。

歪度:完全に左右対称な正規分布では「0」になります。右に裾が長い分布(左側にデータが集中)ならプラス、左に裾が長い分布ならマイナスの値をとります。
尖度:数式の定義の仕方にもよりますが(正規分布の値を引く補正を行う場合)、正規分布の尖度を「0」とします。正規分布より頂点が鋭く尖っている分布はプラス(正)、平べったい分布はマイナス(負)の値をとるため、視覚的にデータの尖り具合を判断できます。


6. まとめ

データサイエンスや機械学習の現場において「データの形状を1次から4次の段階的な特徴で表す手法」と言えば、この統計モーメントです。中心(1次)、ちらばり(2次)、歪度(3次)、尖度(4次)というアルゴリズムの階層的な繋がりを理解し、データの性質を深く見極められるようになりましょう!


PR

【機械学習の知識】数式なしでわかるブートストラップ・リサンプリングの仕組みとアルゴリズム

限られたデータから統計的な推測を行いたい。しかし、何度もデータを集め直すのは現実的に不可能。その限界を「何度も復元抽出する」というアイデアで突破するのが、ブートストラップ・リサンプリングです。

1. 【 概要 】

ブートストラップ・リサンプリングとは、手元にある元のデータセット(サンプルサイズ n)から、重複を許して(元に戻しながら)ランダムにデータを取り出し、新しい疑似的なデータセットを何度も作り出す手法です。これにより、手元のデータだけでは分からなかった「統計量のばらつき(分散や信頼区間)」を視覚的・計算的に評価できるようになります。


2. 【 基本アルゴリズム 】

サンプルサイズを n とする。
(1) n 個の標本を抽出して、その平均を記録する。標本を元に戻す。
(2) この処理を N 回繰り返す。
(3) N 個の結果を使って、統計量などを計算する。

3. 整理:各ステップで何が行われているのか?

一見するとシンプルな処理ですが、データサイエンスにおいて非常に強力な効果を発揮します。それぞれのステップを具体的に見ていきましょう。

【 アルゴリズムの具体的な処理内容 】

ステップ(1):復元抽出と記録
元のデータからランダムに1個選び、記録したら「また元のデータの中に戻す」という操作(復元抽出)を n 回 繰り返して新しいデータセットを作ります。この新しいデータセットの平均値などの統計量を計算し、記録します。同じデータが2回以上選ばれることもあれば、1度も選ばれないデータもあります。

ステップ(2):N回の繰り返し
ステップ(1)の「n個選んで平均を記録する」という一連の処理を、十分に大きな回数(N回。一般的に数百〜数千回)繰り返します。手元にN個の「疑似的な平均値のデータ」が集まることになります。

ステップ(3):統計量の計算
集まった N 個 の結果の分布を見ることで、その統計量がどれくらいバラつくのか(標準誤差)を求めたり、95%信頼区間を推定したりします。

4. 関連して押さえたい「アンサンブル学習(バギング)への応用」

このブートストラップ・リサンプリングは、統計推定だけでなく、機械学習において高い予測精度を誇るアルゴリズムの基礎にもなっています。
代表例が「バギング(Bootstrap Aggregating)」です。バギングでは、ブートストラップ法によって大量の異なるデータセットを作り出し、それぞれで決定木などの弱学習器を並列に訓練します。これらを組み合わせたモデルが、機械学習で非常によく使われる「ランダムフォレスト」です。


5. 補足:一度も選ばれないデータ(約37%)の秘密

サンプルサイズ n が十分に大きいとき、ブートストラップ抽出において元のデータから「一度も選ばれないデータ」は理論上、全体の約36.8%(約37%)存在します(数式では (1 - 1/n)^n が 1/e に収束するため)。
機械学習のランダムフォレストなどでは、この選ばれなかった約37%のデータを「Out-of-Bag(OOB)データ」と呼び、モデルの性能をテストするための検証用データとして有効活用しています。


6. まとめ

データサイエンスや機械学習の現場において「元に戻しながら何度もデータを集め直す手法」と言えば、このブートストラップ・リサンプリングです。手元にある限られたデータからでも、計算機のパワー(反復処理)を使って統計的な信頼性を評価したり、強力なアンサンブルモデルを作ったりできる重要なアルゴリズムですので、確実に仕組みを押さえておきましょう!