DS検定＞1-3-1. 学習モデル｜いけいけ機械学習

【DS検定対策】並列処理でブレを抑える！アンサンブル学習の王道「バギング」

機械学習モデルの予測性能を安定させる「アンサンブル学習」。その中でも、データをランダムに切り分けて複数のモデルを同時に（並列に）育てる手法がバギングです。

1. 【問題】

アンサンブル学習の代表的な手法の一つにおいて、元の訓練データからランダムに重複を許して一部のデータを抽出し（ブートストラップサンプリング）、それらを用いて複数のモデルを並列的に構築した上で、最終的な予測結果を平均（回帰の場合）や多数決（分類の場合）によって決定するアルゴリズムを何と呼ぶでしょうか？

① ブースティング（Boosting）
② バギング（Bagging）
③ スタッキング（Stacking）
④ ドロップアウト（Dropout）

2. 【解答】

正解： ② バギング（Bagging）

3. 整理：バギングの仕組みと最大のメリット

バギング（Bootstrap Aggregating）は、その名の通り「データを小分けのバッグ（Bag）に詰めて別々に学習させる」イメージです。

【バギングの3ステップ】

データの切り分け（並列準備）：元のデータから、重複を許してランダムにデータを抜き出した「子データ」を大量に作成します。

並列構築：それぞれの子データを使って、複数のモデル（決定木など）を完全に独立して並列に同時学習させます。

総合（アグリゲーション）：テストデータに対して全員で予測を行い、最後にその「平均」や「多数決」で一つの答えを出します。

★ ここがメリット：「バリアンス（分散・ブレ）を下げる」
1つのモデルだけに学習させると、手元のデータに過剰に適合してしまい（以前学んだ過学習）、新しいデータに対して予測値が激しくブレる傾向があります。バギングは、並列に作った多くのモデルの意見を総合してマイルドに平均化するため、モデルの過学習を抑え、未知のデータに対する堅牢性（ロバスト性）を劇的に高めることができます。

5. DS検定形式：実戦4択クイズ

問：バギングの仕組みをベースに、変数の選択（特徴量の抽出）にもランダム性を加えることで、決定木同士の相関を下げて予測精度をさらに向上させた、データサイエンスで非常によく使われる代表的な機械学習アルゴリズムはどれか。

① 主成分分析 ② ロジスティック回帰 ③ ランダムフォレスト ④ サポートベクターマシン

【正解： ③ 】

解説： バギングの最も有名な応用例が「ランダムフォレスト」です。データだけでなく「使う変数」までモデルごとにランダムに制限することで、個々の木が全く異なる個性を持ち、それらを並列で組み合わせることで極めて強力な「森（フォレスト）」を作り上げます。

6. まとめ

DS検定において「並列的にモデルを構築して平均や多数決を用いる」というキーワードが登場したら、それは「バギング」の性質を指します。実務のデータコンペ（Kaggleなど）でも、モデルのブレを抑えて手堅くスコアを安定させるための大基本となる戦略ですので、直列処理のブースティングとの違いとセットで確実にマスターしておきましょう！

【DS検定対策】高次元へ飛ばしてスパッと切る！SVMと「カーネル法」の魔術

直線や平面ではどうしても2つのグループに切り分けることができない複雑なデータ。それを数理の力で鮮やかに分類できるようにするのが、サポートベクターマシンの「カーネル法」です。

1. 【問題】

サポートベクターマシン（SVM）において、直線や平面では綺麗に分類できない「非線形分離」なデータに対し、データをより高次元の空間へと写像（マッピング）することで、線形分離（直線や平面での分割）を可能にする手法を何と呼ぶでしょうか？

① カーネル法
② 勾配降下法
③ ステップワイズ法
④ 主成分分析

2. 【解答】

正解： ① カーネル法

3. 図解イメージ：高次元へ飛ばすとはどういうことか？

2次元（平面）ではどう頑張っても直線1本でセパレートできない「ドーナツ型」のデータを例に、カーネル法の魔法を視覚的に整理してみましょう。

元の空間（2次元平面）	カーネルトリック後の空間（3次元空間）
・中心に「グループA（●）」がある。・その周りを「グループB（✖）」が囲んでいる。【悩み】まっすぐな直線（線形）をどこに引いても、●と✖を1本で完全に切り離すことは不可能です。	・カーネル関数を使い、データを「縦・横」だけでなく「高さ（Z軸）」の次元を追加した3次元空間にマッピングします。【結果】中心の●だけがポコッと上に浮き上がり、周りの群が下に残るため、間を「1枚の平らな紙（平面）」でスパッと水平に切り分ける（線形分離）ことができるようになります！

元の空間（2次元平面）

カーネルトリック後の空間（3次元空間）

・中心に「グループA（●）」がある。
・その周りを「グループB（✖）」が囲んでいる。

【悩み】
まっすぐな直線（線形）をどこに引いても、●と✖を1本で完全に切り離すことは不可能です。

・カーネル関数を使い、データを「縦・横」だけでなく「高さ（Z軸）」の次元を追加した3次元空間にマッピングします。

【結果】
中心の●だけがポコッと上に浮き上がり、周りの群が下に残るため、間を「1枚の平らな紙（平面）」でスパッと水平に切り分ける（線形分離）ことができるようになります！

★ ここが天才的：「カーネルトリック」
実際に高次元のめんどくさい座標計算を真面目にやると、計算量が爆発してフリーズしてしまいます。しかし、カーネル法では「高次元に移動した後のデータ同士の内積」を、元の次元のままで直接ショートカット計算できる関数（カーネル関数）を使います。これを「カーネルトリック」と呼び、深層学習が登場する前の機械学習界を席巻しました。

5. DS検定形式：実戦4択クイズ

問：サポートベクターマシン（SVM）において、データを2つのクラスに分類する境界線を決定する際、境界線に最も近い位置に存在する（境界線を支える目印となる）一部のデータ点のことを何と呼ぶか。

① サポートベクター ② マージン ③ カーネル係数 ④ スラック変数

【正解： ① 】

解説： アルゴリズムの名の由来でもある「サポートベクター」です。SVMは、すべてのデータを覚えるのではなく、境界線のギリギリのキワにいる「サポートベクター」だけを基準にして境界線を引きます。そのため、以前に学んだ外れ値やノイズに対しても非常にタフ（堅牢 / ロバスト）であるという、美しい繋がりを持っています。

6. まとめ

DS検定において「非線形データを高次元に飛ばして線形分離する」「SVM」というキーワードが来たら「カーネル法」です。実務のデータコンペ（Kaggleなど）でも、データ構造によっては非常に強力な選択肢となるクラシックな名手法ですので、その幾何学的なイメージをしっかり押さえておきましょう！

【DS検定対策】サブスクビジネスの命綱！顧客の離脱を防ぐ「チャーン分析」

新規顧客を獲得するよりも、既存の顧客に長く続けてもらう方がコストを低く抑えられます。顧客がサービスを解約（離脱）する予兆をデータから予測する手法が、チャーン分析です。

1. 【問題】

サブスクリプション型のサービスや会員制ビジネスにおいて、顧客が契約を解除したりサービスを利用しなくなったりする「解約・離脱」の行動やその確率を、過去の利用履歴データ（アクセス頻度、契約期間、サポートへの問い合わせ回数など）から予測・分析する手法を何と呼ぶでしょうか？

① バスケット分析
② チャーン分析（解約・離脱分析）
③ アソシエーション分析
④ ABC分析

2. 【解答】

正解： ② チャーン分析（解約・離脱分析）

3. 整理：チャーン分析で「予測の手がかり」となるデータ（特徴量）

顧客が解約する前には、高確率で行動に「サイン（変化）」が現れます。データサイエンティストは以下のような特徴量をモデルに投入して予測を行います。

データカテゴリ	解約の予兆（フラグ）となりやすい変化
1. 利用頻度の減少	「ログイン回数が先月比で急激に減った」「動画の視聴時間が短くなった」など、サービスへのエンゲージメント（熱量）の低下。
2. 顧客属性・契約プラン	「無料トライアル期間の終了間際」「特定のキャンペーン経由で入会した」など、元からの定着度の低さ。
3. ネガティブな体験	「システムの不具合（エラー）を何度も経験した」「カスタマーサポートに複数回クレームや問い合わせを入れている」など。

★ データサイエンティストの戦い方：
これまでに学んだ「LightGBM」や「ロジスティック回帰」などの機械学習アルゴリズムを用いて、「この顧客はあと1ヶ月以内に80%の確率で解約する」といった予測を算出します。マーケティングチームはその予測を基に、解約されそうなユーザーだけに限定してクーポンを配信する、といった効率的な引き止め施策を打ちます。

5. DS検定形式：実戦4択クイズ

問：チャーン予測モデルを構築した際、すでに解約してしまった過去のユーザーのデータだけを分析対象とし、途中でプランを変更したユーザーや現在も継続しているユーザーの行動ログを除外してモデルを評価した。このときに警戒すべき、以前の講義で学んだデータの偏り（バイアス）として最も適切なものはどれか。

① 自己選択バイアス ② 脱落バイアス ③ 出版バイアス ④ 確定バイアス

【正解： ② 】

解説： 解約という「途中の離脱（脱落）」が起きた結果のデータだけを後から見て、そのプロセス（時間の経過に伴う変化）や現役ユーザーとの違いを無視して集計すると、正しい予測ルールが作れなくなります。まさに脱落バイアスへの配慮が必要な典型例です。

6. まとめ

DS検定において「顧客の解約・離脱を予測・分析する手法」という主旨の問題が出たら、迷わず「チャーン分析」を選択しましょう。実務において、機械学習モデルが企業の売上守備を固めるための最たる応用例ですので、ビジネス理解とセットでしっかりと押さえておきましょう！

【DS検定対策】巨大データの学習を効率化！「ミニバッチ確率的勾配降下法」

深層学習で数万、数百万という膨大なデータを一度に学習させようとすると、サーバーのメモリがパンクしてしまいます。そこでデータを程よいサイズに小分けにして賢く学習を進めるのが、ミニバッチ確率的勾配降下法です。

1. 【問題】

深層学習（ディープラーニング）のパラメーター（重み）を最適化するアルゴリズムにおいて、すべての訓練データを一度に処理するのではなく、データを一定の小さなグループに分割し、そのグループごとに誤差（勾配）を計算してパラメーターを更新する手法を何と呼ぶでしょうか？

① バッチ学習（最急降下法）
② 確率的勾配降下法（SGD：1件ずつ処理）
③ ミニバッチ確率的勾配降下法（Mini-batch SGD）
④ ランダムフォレスト

2. 【解答】

正解： ③ ミニバッチ確率的勾配降下法（Mini-batch SGD）

3. 整理：データの処理方法による3つの違い

パラメーターを更新する（山を下るように最適解を探す）アプローチには、処理するデータの「塊（サイズ）」によって3つの選択肢があります。それぞれのメリット・デメリットを整理しましょう。

手法名	処理の単位（バッチサイズ）	メリットと弱点
バッチ学習（最急降下法）	訓練データ全件（例：1000個）を一度に処理して、1回だけパラメーターを更新する。	◯ 動きが安定する。 ✕ メモリを大量に消費し、計算が非常に遅い。
確率的勾配降下法（SGD）	ランダムに選んだ「たった1件」のデータごとに、毎回パラメーターを更新する。	◯ メモリ消費が最小で、動きが速い。 ✕ 1件ごとのノイズに振り回され、挙動が激しくブレる。
ミニバッチ学習 ★今回の主役	データを小分けにした「適切な塊（例：100個ずつ）」ごとにパラメーターを更新する。	◯ 両者のいいとこ取り。GPUの並列計算をフルに活かせ、ノイズも適度にいなせるため、現代の深層学習の主流。

4. 覚えておきたい関連用語：「エポック」と「イテレーション」

ミニバッチ学習を実装・運用する際には、以下の2つの単位がログや設定ファイル（ハイパーパラメーター）に必ず登場します。

・イテレーション（Iteration）: パラメーターを「1回更新」する単位。1000個のデータを100個ずつのミニバッチに分けた場合、1周するのに10イテレーションかかります。
・エポック（Epoch）: 訓練データ「全件を1通り使い切る」単位。1000個のデータをすべて1回ずつ学習に使い終えたら1エポックと数えます。

5. DS検定形式：実戦4択クイズ

問：ミニバッチ確率的勾配降下法において、分割された小さなデータグループ（ミニバッチ）のデータ数のことを何と呼ぶか。

① バッチサイズ ② エポック数 ③ 学習率 ④ ドロップアウト率

【正解： ① 】

解説： グループ内のデータ数を「バッチサイズ」と呼びます。実務では 32、64、128、256 といった2の累乗の数値がよく設定されます。このサイズが大きすぎるとメモリ（VRAM）不足になり、小さすぎると処理の効率が落ちるため、インフラ環境に合わせて調整する重要なパラメーターです。

6. まとめ

DS検定において「訓練データをより小さなグループに分けて処理を行う」というアルゴリズムが出たら「ミニバッチ確率的勾配降下法」です。前回学んだ「ドロップアウト」などと組み合わせることで、現代の巨大なニューラルネットワーク（深層学習）は高速かつ頑健に学習できるようになっています！

【DS検定対策】あえて通信を遮断！「ドロップアウト」で過学習を防ぐ

ニューラルネットワークが賢くなりすぎる（手元のデータを丸暗記する）のを防ぐため、学習のたびにネットワークの間引きを行うユニークな技術、それがドロップアウトです。

1. 【問題】

深層学習（ディープラーニング）の学習プロセスにおいて、過学習（オーバーフィッティング）を抑制するための「正則化」の手法の一つであり、各層のニューロン（ノード）をランダムに一定の確率で無効化（不活性化）しながら学習を進める手法を何と呼ぶでしょうか？

① プルーニング（枝刈り）
② バッチ正規化（Batch Normalization）
③ ドロップアウト（Dropout）
④ 知識蒸留

2. 【解答】

正解： ③ ドロップアウト（Dropout）

3. 整理：なぜ「ランダムにサボらせる」と強くなるのか？

すべてのニューロンが常にフル稼働していると、特定のニューロン同士が強く依存し合ってしまい、手元の訓練データに過剰に適合（丸暗記）しやすくなります。

【ドロップアウトの効果】

・学習時（訓練時）：

毎回、ランダムにいくつかのニューロンを「お休み」にさせます。残されたニューロンだけでなんとか正解を導き出さなければならないため、特定のルートに頼らない「どこが欠けてもタフに予測できる堅牢（ロバスト）なネットワーク」が育ちます。

・推論時（本番環境での予測）：

すべてのニューロンをフル稼働させます。ただし、学習時よりも全体の出力が大きくなってしまうため、ドロップアウトさせた確率を掛け算して「出力を調整」する処理が行われます。

4. 以前学んだ「アンサンブル学習」との関係

ドロップアウトは、学習のたびに毎回異なる「少しずつ形の違う小規模なネットワーク」を大量に作り、それらを最終的に1つに統合して予測していると解釈することもできます。
つまり、深層学習の内部で自動的にアンサンブル学習（複数のモデルの多数決）を行っているような効果が得られるため、非常に強力に過学習を防ぐことができるのです。

5. DS検定形式：実戦4択クイズ

問：深層学習における過学習対策（正則化）のうち、ドロップアウトのようにニューロンを無効化するのではなく、損失関数（誤差の計算式）にパラメーター（重み）の大きさそのものをペナルティとして加算することで、重みが極端に大きくなるのを防ぐ手法を何と呼ぶか。

① 勾配クリッピング ② L1 / L2 正則化 ③ データの拡張（Data Augmentation） ④ 早期終了（Early Stopping）

【正解： ② 】

解説： 重みにペナルティを課してモデルの複雑さを抑える王道の手法が「L1 / L2 正則化（リッジ回帰やラッソ回帰のベースとなる仕組み）」です。ドロップアウトと並び、過学習を阻止するための2大兵器として試験によく出題されます。

6. まとめ

DS検定において「ランダムにニューロンを無効化」「過学習を防ぐ」という記述が登場したら「ドロップアウト」です。以前に学んだ「深層学習」を実務で使えるレベルに安定させるための重要な周辺技術ですので、そのタフな仕組みをしっかり覚えておきましょう！

1. 【 問題 】

2. 【 解答 】

3. 整理：バギングの仕組みと最大のメリット

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【 問題 】

2. 【 解答 】

3. 図解イメージ：高次元へ飛ばすとはどういうことか？

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【 問題 】

2. 【 解答 】

3. 整理：チャーン分析で「予測の手がかり」となるデータ（特徴量）

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【 問題 】

2. 【 解答 】

3. 整理：データの処理方法による3つの違い

4. 覚えておきたい関連用語：「エポック」と「イテレーション」

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【 問題 】

2. 【 解答 】

3. 整理：なぜ「ランダムにサボらせる」と強くなるのか？

4. 以前学んだ「アンサンブル学習」との関係

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】