【DS検定対策】多すぎる変数を賢く選別!「段階的回帰(ステップワイズ法)」の仕組み
予測モデルを作る際、変数は多ければ多いほど良いとは限りません。本当に必要な変数だけをシステムが自動で選ぶ技術、それが段階的回帰(ステップワイズ法)です。
1. 【 問題 】
重回帰分析などの変数選択において、すべての変数(特徴量)を一気に投入するのではなく、モデルの予測精度(AICなどの統計量)が最も向上するように、変数を1つずつ順番に追加、または削除しながら最適な変数の組み合わせを自動的に探索する手法を何と呼ぶでしょうか?
① 段階的回帰(ステップワイズ法)
② 主成分分析(PCA)
③ ロジスティック回帰
④ プルーニング(枝刈り)
2. 【 解答 】
3. 整理:ステップワイズ法の3つのアプローチ
ステップワイズ法には、変数をどう動かすかによって主に3つの戦術があります。
| 手法名 | 変数の選び方の特徴 |
|---|---|
| 増加法 (前向き選択) |
変数ゼロの状態からスタート。モデルの精度を最も上げる変数を「次々に追加」していき、これ以上精度が上がらなくなったらストップする手法。 |
| 減少法 (後ろ向き消去) |
最初にすべての変数を全部投入した状態からスタート。予測に「最も貢献していない(不要な)変数」を1つずつ「削除」していく手法。 |
| 増減法 (ステップワイズ) |
上記のハイブリッド。変数を1つずつ「追加」しつつ、過去に入れた変数が不要になっていないかを毎回チェックして「削除」も行う最も賢い手法。 |
4. なぜ変数を絞り込む必要があるのか?
「データがたくさんあるなら、全部の変数を回帰式に入れればいいのでは?」と思いがちですが、それは危険です。
関係のないノイズのような変数までたくさん入れてしまうと、前回の問題で扱った過学習(オーバーフィッティング)の原因になったり、変数同士が数理的に衝突する多重共線性(マルチコ)という不具合を引き起こします。そのため、段階的回帰を使って「少数精鋭の変数」に絞り込むことが実務でも非常に重要になります。
5. DS検定形式:実戦4択クイズ
問:段階的回帰(ステップワイズ法)において、変数を追加・削除する際の「予測精度の良さ(モデルのシンプルさと当てはまりの良さのバランス)」を評価するために、最もよく使われる代表的な統計指標はどれか。
① 決定係数($R^2$) ② 赤池情報量基準(AIC) ③ 標準偏差 ④ 相関係数
【 正解: ② 】
解説: ステップワイズ法では、一般的に「AIC(Akaike Information Criterion)」という指標が最小になるように変数を出し入れします。決定係数(①)は変数を増やせば増やすほど勝手に数値が上がってしまうため、変数の選別基準としては適切ではありません。
6. まとめ
DS検定において「精度を上げるために変数を次々に追加(選択)または削除する」という自動選別のキーワードが出たら「段階的回帰(ステップワイズ法)」です。手元にあるデータの過学習を防ぎ、シンプルで本番に強いモデルを作るための王道アプローチとして覚えておきましょう!