【DS検定対策】並列処理でブレを抑える!アンサンブル学習の王道「バギング」
機械学習モデルの予測性能を安定させる「アンサンブル学習」。その中でも、データをランダムに切り分けて複数のモデルを同時に(並列に)育てる手法がバギングです。
1. 【 問題 】
アンサンブル学習の代表的な手法の一つにおいて、元の訓練データからランダムに重複を許して一部のデータを抽出し(ブートストラップサンプリング)、それらを用いて複数のモデルを並列的に構築した上で、最終的な予測結果を平均(回帰の場合)や多数決(分類の場合)によって決定するアルゴリズムを何と呼ぶでしょうか?
① ブースティング(Boosting)
② バギング(Bagging)
③ スタッキング(Stacking)
④ ドロップアウト(Dropout)
2. 【 解答 】
3. 整理:バギングの仕組みと最大のメリット
バギング(Bootstrap Aggregating)は、その名の通り「データを小分けのバッグ(Bag)に詰めて別々に学習させる」イメージです。
【 バギングの3ステップ 】
2. 並列構築:それぞれの子データを使って、複数のモデル(決定木など)を完全に独立して並列に同時学習させます。
3. 総合(アグリゲーション):テストデータに対して全員で予測を行い、最後にその「平均」や「多数決」で一つの答えを出します。
★ ここがメリット:「バリアンス(分散・ブレ)を下げる」
1つのモデルだけに学習させると、手元のデータに過剰に適合してしまい(以前学んだ過学習)、新しいデータに対して予測値が激しくブレる傾向があります。バギングは、並列に作った多くのモデルの意見を総合してマイルドに平均化するため、モデルの過学習を抑え、未知のデータに対する堅牢性(ロバスト性)を劇的に高めることができます。
5. DS検定形式:実戦4択クイズ
問:バギングの仕組みをベースに、変数の選択(特徴量の抽出)にもランダム性を加えることで、決定木同士の相関を下げて予測精度をさらに向上させた、データサイエンスで非常によく使われる代表的な機械学習アルゴリズムはどれか。
① 主成分分析 ② ロジスティック回帰 ③ ランダムフォレスト ④ サポートベクターマシン
【 正解: ③ 】
解説: バギングの最も有名な応用例が「ランダムフォレスト」です。データだけでなく「使う変数」までモデルごとにランダムに制限することで、個々の木が全く異なる個性を持ち、それらを並列で組み合わせることで極めて強力な「森(フォレスト)」を作り上げます。
6. まとめ
DS検定において「並列的にモデルを構築して平均や多数決を用いる」というキーワードが登場したら、それは「バギング」の性質を指します。実務のデータコンペ(Kaggleなど)でも、モデルのブレを抑えて手堅くスコアを安定させるための大基本となる戦略ですので、直列処理のブースティングとの違いとセットで確実にマスターしておきましょう!