【DS検定対策】Kaggleでも大人気!最強の直列アルゴリズム「勾配ブースティング」
前のモデルが犯したミスを、次のモデルが引き継いで集中修正していく。この「リレー」のような仕組みで驚異的な予測精度を叩き出すのが、勾配ブースティングです。
1. 【 問題 】
アンサンブル学習の代表的な手法の一つであり、決定木などの弱い予測モデル(弱学習器)を一つずつ順番に(直列に)構築し、前のモデルが出した予測値と正解との「誤差(勾配)」を、次のモデルが修正するように学習を繰り返すことで、最終的に非常に高い予測精度を得る機械学習アルゴリズムを何と呼ぶでしょうか?
① 勾配ブースティング(Gradient Boosting)
② バギング(Bagging)
③ 主成分分析(PCA)
④ K-means法
2. 【 解答 】
3. 整理:バギングとブースティングの決定的違い
試験で最も狙われるのは、先ほど学んだ「バギング」とのアーキテクチャ(構造)の違いです。ここを完全に区別しておきましょう。
| 手法名 | 学習の進め方(アーキテクチャ) | 統計学的な狙い(強み) |
|---|---|---|
| バギング (前回) |
複数のモデルを「並列」に同時に作り、最後に全員の平均や多数決をとる。 (例:ランダムフォレスト) |
モデルの過学習を抑え、予測の「ブレ(分散・バリアンス)」を下げるのが得意。 |
| ブースティング ★今回の主役 |
モデルを「直列(順番)」に作り、前のモデルのミス(残差)を次のモデルが追いかける。 | モデルの表現力を高め、予測の「的外れさ(バイアス)」を極限まで下げるのが得意。 |
4. 実務で使われる超有名ライブラリたち
「勾配ブースティング」というアルゴリズムは、実務やKaggleなどのコンペにおいて以下のような超強力な進化系ライブラリとして実装され、表形式データの予測で無双しています。
・XGBoost: 勾配ブースティングを一躍有名にした、高速・高精度な歴史的名作。
・LightGBM: Microsoftが開発。データのスキャン方法を工夫することで、計算速度とメモリ効率を劇的に進化させた現代の主役。
5. DS検定形式:実戦4択クイズ
問:勾配ブースティングは非常に強力なアルゴリズムですが、学習(イテレーション)を際限なく繰り返してしまうと、どのような問題(不具合)が発生しやすくなるか。最も適切なものを一つ選べ。
① アンダーフィッティング(学習不足) ② 勾配消失問題 ③ 過学習(オーバーフィッティング) ④ 多重共線性(マルチコ)
【 正解: ③ 】
解説: ブースティングはミスを執拗に追いかけて修正していくため、繰り返し回数を多くしすぎると、訓練データに含まれる細かいノイズまで完璧に合わせにいってしまい、過学習(オーバーフィッティング)を起こします。これを防ぐために、テスト誤差が下がらなくなった時点で学習を強制終了する「早期終了(Early Stopping)」というテクニックが実務では必須になります。
6. まとめ
DS検定において「前のモデルの誤差・勾配を後ろのモデルが順番に修正して強くなる」という記述が出たら「勾配ブースティング」です。バギング(並列)との違い、そして過学習を抑えるための周辺技術とセットで頭を整理しておきましょう!