忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【機械学習の知識】数式なしでわかる統計モーメントの仕組みとアルゴリズム

データの集まり(分布)がどのような形をしているかを数値で表現したい。平均値や分散だけでなく、左右の非対称さや尖り具合までを系統的に捉えるための概念が、統計モーメント(積率)です。

1. 【 概要 】

統計モーメントとは、確率分布やデータの「形状の特徴」を段階的に切り出すための指標です。1次、2次、3次、4次と次数が上がるにつれて、データの中心位置から始まり、広がり方、非対称性、尖り具合といった、より詳細な形状の情報が得られるようになります。


2. 【 基本アルゴリズム 】

1次モーメント ・・ 中心の位置の分布(平均値)
データの重心がどこにあるかを表す、最も基本的な指標です。

2次モーメント ・・ ちらばり(分散)
データが中心(平均)からどれくらい広く散らばっているかを表します。

3次モーメント ・• 歪度(わいど)
分布の左右の「非対称さ」や傾き具合を表します。

4次モーメント ・• 尖度(せんど)
分布の頂点がどれくらい「尖っているか」、または裾野がどれくらい厚いかを表します。

3. 整理:各次数の具体的な処理内容

統計モーメントは、次数ごとにデータの異なる特徴を計算します。それぞれのステップと意味を具体的に見ていきましょう。

【 各モーメントの具体的な処理内容 】

1次モーメント(平均値)の処理
すべてのデータを足し合わせて、データの個数で割ることで、分布の「重心(中心の位置)」を特定します。

2次モーメント(分散)の処理
各データが「平均値からどれだけ離れているか(偏差)」を計算し、それを2乗したものの平均をとります。2乗することで、中心からの「距離(ちらばり)」を正の数として正しく評価できます。

3次モーメント(歪度)の処理
平均からの偏差を3乗して計算します。3乗するとプラスとマイナスの符号が残るため、分布の裾が右側に伸びているか、左側に伸びているかという「非対称さ」が分かります。

4次モーメント(尖度)の処理
平均からの偏差を4乗して計算します。4乗することで、中心から極端に離れたデータ(外れ値)の影響が強調され、分布の頂点の「尖り具合」や「裾野の厚み(外れ値の出やすさ)」を浮き彫りにします。

4. 関連して押さえたい「機械学習(特徴量エンジニアリング)への応用」

この統計モーメントは、機械学習において非常に重要な「特徴量エンジニアリング」の技術として応用されています。

例えば、音声データやセンサーデータ(時系列データ)を機械学習モデルに入力する際、そのままの波形データでは複雑すぎて学習がうまくいきません。そこで、一定時間ごとのデータの「平均(1次)」「分散(2次)」「歪度(3次)」「尖度(4次)」を計算し、波形の特徴をぎゅっと凝縮した数値(特徴量)に変換してからモデルに投入します。

このように、統計モーメントを使うことで、複雑なデータの性質をシンプルかつ強力に表現できるようになります。


5. 補足:正規分布を基準にする「歪度と尖度」の数値

データ分析で3次・4次モーメント(歪度・尖度)を扱う際、最も美しい対称の形である「正規分布」が基準になります。

歪度:完全に左右対称な正規分布では「0」になります。右に裾が長い分布(左側にデータが集中)ならプラス、左に裾が長い分布ならマイナスの値をとります。
尖度:数式の定義の仕方にもよりますが(正規分布の値を引く補正を行う場合)、正規分布の尖度を「0」とします。正規分布より頂点が鋭く尖っている分布はプラス(正)、平べったい分布はマイナス(負)の値をとるため、視覚的にデータの尖り具合を判断できます。


6. まとめ

データサイエンスや機械学習の現場において「データの形状を1次から4次の段階的な特徴で表す手法」と言えば、この統計モーメントです。中心(1次)、ちらばり(2次)、歪度(3次)、尖度(4次)というアルゴリズムの階層的な繋がりを理解し、データの性質を深く見極められるようになりましょう!


PR

【DS検定対策】異常値に負けないタフな指標!統計量の「堅牢性(ロバスト性)」

データの中に数件の異常値(外れ値)が混ざっただけで、計算結果がガラリと変わってしまうようでは実務で使えません。ノイズに対するタフさを表す言葉が「堅牢性」です。

1. 【 問題 】

統計学や機械学習において、データの中に極端な外れ値や異常値、測定エラーなどが含まれていても、その影響をあまり受けずに、集団の実態を正しく推測できる(統計量やモデルの)性質のことを何と呼ぶでしょうか?

① 局所性
② 堅牢性(頑健性 / ロバスト性)
③ 収束性
④ 柔軟性


2. 【 解答 】

正解: ② 堅牢性(頑健性 / ロバスト性)

3. 整理:これまでに学んだ指標の「堅牢性」チェック

これまでに登場した基本統計量を、「堅牢性が高いチーム(異常値に強い)」と「低いチーム(異常値に弱い)」に分けて整理すると、試験対策としても完璧です。

グループ具体的な統計量なぜそう言えるのか?
堅牢性が高い
(ロバスト)
中央値
四分位範囲(IQR)
トリム平均
端っこのデータを無視したり、順位の真ん中だけを見たりするため、どれだけ極端な異常値が来ても数値がブレにくい。
堅牢性が低い
(非ロバスト)
平均値
範囲(レンジ)
分散 / 標準偏差
「すべての値を足す」「最大と最小の差をとる」「差を2乗する」といった計算を含むため、1つの異常値で全体が崩壊する。

5. DS検定形式:実戦4択クイズ

問:統計量だけでなく、データ分析モデル全体において「堅牢性(ロバスト性)」を確保するアプローチとして、最も不適切なものはどれか。

① 線形回帰において、外れ値の影響を抑える「ロバスト回帰(Huber損失など)」を適用する。
② 前処理の段階で、トリム平均などを応用して明確な異常値を除外(クレンジング)する。
③ 予測精度を極限まで高めるため、手元にある訓練データのノイズ(異常値)も含めて100%完璧にフィットするようモデルを複雑にする。
④ 外れ値に引きずられやすい「範囲(レンジ)」の代わりに、「四分位範囲(IQR)」を散布度の指標に採用する。

【 正解: ③ 】

解説: 訓練データのノイズまで完璧に合わせようとすると、以前に学んだ過学習(オーバーフィッティング)を引き起こし、未知のデータに対する堅牢性(汎化性能)がガタ落ちしてしまいます。ノイズを適度にいなす(無視する)ことこそが、堅牢性を保つ秘訣です。


6. まとめ

DS検定において「異常値やノイズの影響を受けにくい統計量や性質」というキーワードが出たら「堅牢性(頑健性、ロバスト性)」です。実務のシステム運用やデータ分析でも、「このシステム(または指標)はロバストか?」という視点は常に求められます。これまでに学んだ各指標の特徴とセットで記憶に刻んでおきましょう!


【DS検定対策】外れ値をカットして実態を掴む!「トリム平均」の仕組み

すべての値を足して割る「平均値」は、極端な値(外れ値)が1つあるだけで数値が跳ね上がってしまいます。その弱点を克服するために、上下のデータを一定割合だけ切り落としてから計算するのがトリム平均です。

1. 【 問題 】

統計学において、データの集団から極端に大きい値(最大値側)と極端に小さい値(最小値側)を、あらかじめ決めた一定の割合(または個数)だけ除外した上で、残ったデータを用いて算出する平均値のことを何と呼ぶでしょうか?

① 加重平均
② 幾何平均
③ トリム平均(調整平均)
④ 移動平均


2. 【 解答 】

正解: ③ トリム平均(調整平均)

3. 整理:トリム平均の計算イメージ

例えば、スポーツの審査(フィギュアスケートやスキージャンプなど)で、審判全員がつけた点数のうち「最高点」と「最低点」を除外して残りの平均をとるルールがあります。これがまさにトリム平均の思想です。

【 具体例:10%トリム平均の場合 】

元のデータ:データを大きさ順に並べます。
[ 10, 45, 50, 52, 55, 56, 58, 60, 62, 990 ] (データ数 10個)

トリム処理:上下からそれぞれ10%(1個ずつ)をカットします。
[ 10 ][ 990 ] を除外!

平均を計算:残った中間の8個だけで平均を計算します。
[ 45, 50, 52, 55, 56, 58, 60, 62 ] の平均 = 54.75

--------------------------

ここがメリット:
普通に平均をとると「143.8」になってしまい実態が見えなくなりますが、トリム平均を使うことで、最後の「990」という異常値(外れ値)の影響を完全にシャットアウトし、集団の本来の特徴をきれいに抽出できます。

4. 代表値としての「強さ」の位置づけ

データが外れ値に対してどれくらい強いか(影響を受けにくいか)という性質を「頑健性(ロバスト性)」と呼びます。今回のトリム平均は、ちょうど以下のような中間的なキャラクターを持っています。

平均値:すべてのデータを使う(頑健性は一番低い
トリム平均:端っこだけを削って平均をとる(頑健性は中くらい
中央値:真ん中の1点(または2点)しか使わない(頑健性は一番高い


5. DS検定形式:実戦4択クイズ

問:データの分布が、外れ値のない綺麗な左右対称(正規分布)であるとき、「平均値」「中央値」「トリム平均」の3つの値の関係として、最も適切なものはどれか。

① 平均値 < トリム平均 < 中央値
② 中央値 < トリム平均 < 平均値
③ 3つの値はほぼ一致する
④ トリム平均だけが全く異なる値になる

【 正解: ③ 】

解説: 外れ値がなく、左右が綺麗に対称な分布であれば、上下を均等に削っても中心のバランスは変わりません。そのため、これら3つの代表値はほぼ同じ値に収束します。外れ値がある非対称な分布のときにこそ、トリム平均はその真価を発揮します。


6. まとめ

DS検定において「一定割合の異常値(外れ値)を排除して残りで平均を算出する」という記述が登場したら「トリム平均(調整平均)」です。実務のデータクレンジングや集計ロジックでも頻出の手法ですので、平均値・中央値との違いを意識して整理しておきましょう!

【DS検定対策】ノイズに負けないデータ集め!フィッシャーの実験計画法3原則

限られた実験から、いかに正しく、効率よく効果を確かめるか。近代統計学の父、ロナルド・フィッシャーが提唱した「実験計画法の3原則」は、現代のデータサイエンスでも必須の知識です。

1. 【 問題 】

フィッシャーが提唱した「実験計画法の3原則」に含まれる3つの要素の組み合わせとして、正しいものはどれでしょうか?

① 反復(Replication) ・ 無作為化(Randomization) ・ 局所管理(Local Control)
② 抽出(Sampling) ・ 段階的帰還(Stepwise) ・ 交互作用(Interaction)
③ 排除(Elimination) ・ 標準化(Standardization) ・ 適合度(Goodness of Fit)
④ 層別(Stratification) ・ 段階的回帰(Regression) ・ 全数調査(Census)


2. 【 解答 】

正解: ① 反復(Replication) ・ 無作為化(Randomization) ・ 局所管理(Local Control)

3. 整理:3原則の役割と具体例

これら3つの原則は、実験につきまとう「個体差」や「予測できないノイズ」をキャンセルするために作られました。農場での肥料の実験をイメージすると分かりやすいです。

原則名意味具体例(肥料の実験)
1. 反復
(Replication)
同じ条件の実験を「複数回繰り返す」こと。たまたま起きた偶然のブレ(誤差)の影響を小さくし、データの信頼性を高めます。 1つの肥料につき、1株だけでなく「10株」にそれぞれ与えて育ち方を比較する。
2. 無作為化
(Randomization)
実験の対象や順番を「ランダム(無作為)に割り当てる」こと。人間が気づいていない、制御できない未知のノイズ(偏り)を平均化して消し去ります。 「日当たりの良い場所には肥料A」「日陰には肥料B」とならないよう、植える場所を完全にくじ引きで決める。
3. 局所管理
(Local Control)
実験空間をいくつかのブロック(グループ)に区切り、「ブロック内では条件をそろえる」こと。分かっているノイズの影響をブロックごとにブロック(遮断)します。 畑の「傾斜が上の方」と「下の方」で土壌が違う場合、上下でブロックを分け、各ブロック内で肥料A・Bを均等に試す。

5. DS検定形式:実戦4択クイズ

問:フィッシャーの3原則のうち、「システム開発におけるWebサイトのA/Bテストにおいて、ユーザーのアクセス時間帯や年齢層といった『まだデータとして把握できていない未知の要因』による偏りを、確率的に均等に分散させて相殺する」ために、最も直接的に適用されている原則はどれか。

① 反復   ② 無作為化   ③ 局所管理   ④ 段階的選択

【 正解: ② 】

解説: 「未知の要因(原因不明の偏り)を、確率的にチャラにする」のが無作為化(ランダム化)の最大のメリットです。A案とB案へのユーザー割り当てをシステム側で完全にランダムに制御するのは、この無作為化を実践している典型例と言えます。


6. まとめ

DS検定において「実験計画法の3原則」を問われたら、呪文のように「反復・無作為化・局所管理」を思い出し、それぞれの役割(反復は誤差減少、無作為化は未知の偏り相殺、局所管理は既知のノイズ制御)をセットで結びつけておきましょう!

【DS検定対策】「わざわざ回答する人」の偏り!自己選択バイアスの罠

「アンケートにご協力ください」と言われて、進んで回答してくれるのはどんな人でしょうか?そこには最初から強い偏りが存在します。それが自己選択バイアスです。

1. 【 問題 】

統計調査や実験において、調査主体がランダムに対象者を選ぶ(無作為抽出する)のではなく、対象者が「自分の意思で進んで参加(自己選択)する」ことによって、集まったデータに強い偏りが生じる現象を何と呼ぶでしょうか?

① 自己選択バイアス
② 観察者バイアス
③ 回避バイアス
④ 出版バイアス


2. 【 解答 】

正解: ① 自己選択バイアス

3. 整理:なぜ「自分の意思」がバイアスを生むのか?

インターネット上の多くのデータは、このバイアスの影響を強く受けています。実務でもよくある具体例を見てみましょう。

【 自己選択バイアスの具体例 】

事例1:ECサイトの製品レビュー(星評価)
ある商品のレビューを見ると、「星5(大満足)」と「星1(大不満)」ばかりで、中間の星3が極端に少ない。
:普通に満足して何も不満がない「大多数のユーザー」は、わざわざレビューを書くという面倒な行動を起こしません。レビューを書くのは「猛烈に感動した人」か「激怒している人」だけになりがちです(自己選択)。

事例2:ネットの政治世論調査
特定のニュースサイトやSNS上で「〇〇政策に賛成ですか?」と任意のアンケートを取ったところ、賛成が90%になった!
:そのサイトやSNSを普段から利用しており、かつ「そのテーマに強い関心があってわざわざ投票ボタンを押した人」だけの意見に偏っています。日本全体の世論とは大きくかけ離れる危険があります。

4. これまで学んだバイアスとの位置づけ

データ収集の偏りを表す「選択バイアス(Selection Bias)」という大きな引き出しの中に、これまで学んだ重要用語が以下のように整理されます。

脱落バイアス:追跡の「途中」で、対象者がいなくなってしまう偏り。
欠測値バイアス:回答の拒否やエラーで、データが「空欄(NULL)」になる偏り。
自己選択バイアス:データの「入り口」で、特定の熱量を持った人だけが自発的に集まる偏り。


5. DS検定形式:実戦4択クイズ

問:自己選択バイアスを防ぎ、母集団の実態を正しく推測するために、標本調査において最も重視されるサンプリング(データ抽出)の手法はどれか。

① 有意抽出(知り合いや集めやすい人から選ぶ)
② 無作為抽出(ランダムサンプリング)
③ ボランティアサンプリング(公募)
④ スノーボールサンプリング(紹介数珠つなぎ)

【 正解: ② 】

解説: 自発的な参加に頼る(③)と自己選択バイアスが直撃します。これを防ぐには、人間の意思が介在しない「無作為抽出(ランダムに選んで調査を依頼する)」を行うことが統計学的な大原則です。


6. まとめ

DS検定において「対象者が自発的に参加することによる偏り」というキーワードが出たら「自己選択バイアス」です。ネット上に転がっているビッグデータや口コミを分析する際には、常にこのバイアスが裏に潜んでいることを意識できるかどうかが、データサイエンティストの腕の見せ所です!