忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】高次元へ飛ばしてスパッと切る!SVMと「カーネル法」の魔術

直線や平面ではどうしても2つのグループに切り分けることができない複雑なデータ。それを数理の力で鮮やかに分類できるようにするのが、サポートベクターマシンの「カーネル法」です。

1. 【 問題 】

サポートベクターマシン(SVM)において、直線や平面では綺麗に分類できない「非線形分離」なデータに対し、データをより高次元の空間へと写像(マッピング)することで、線形分離(直線や平面での分割)を可能にする手法を何と呼ぶでしょうか?

① カーネル法
② 勾配降下法
③ ステップワイズ法
④ 主成分分析


2. 【 解答 】

正解: ① カーネル法

3. 図解イメージ:高次元へ飛ばすとはどういうことか?

2次元(平面)ではどう頑張っても直線1本でセパレートできない「ドーナツ型」のデータを例に、カーネル法の魔法を視覚的に整理してみましょう。

元の空間(2次元平面)カーネルトリック後の空間(3次元空間)
・中心に「グループA(●)」がある。
・その周りを「グループB(✖)」が囲んでいる。

【悩み】
まっすぐな直線(線形)をどこに引いても、●と✖を1本で完全に切り離すことは不可能です。
・カーネル関数を使い、データを「縦・横」だけでなく「高さ(Z軸)」の次元を追加した3次元空間にマッピングします。

【結果】
中心の●だけがポコッと上に浮き上がり、周りの群が下に残るため、間を「1枚の平らな紙(平面)」でスパッと水平に切り分ける(線形分離)ことができるようになります!

ここが天才的:「カーネルトリック」
実際に高次元のめんどくさい座標計算を真面目にやると、計算量が爆発してフリーズしてしまいます。しかし、カーネル法では「高次元に移動した後のデータ同士の内積」を、元の次元のままで直接ショートカット計算できる関数(カーネル関数)を使います。これを「カーネルトリック」と呼び、深層学習が登場する前の機械学習界を席巻しました。


5. DS検定形式:実戦4択クイズ

問:サポートベクターマシン(SVM)において、データを2つのクラスに分類する境界線を決定する際、境界線に最も近い位置に存在する(境界線を支える目印となる)一部のデータ点のことを何と呼ぶか。

① サポートベクター   ② マージン   ③ カーネル係数   ④ スラック変数

【 正解: ① 】

解説: アルゴリズムの名の由来でもある「サポートベクター」です。SVMは、すべてのデータを覚えるのではなく、境界線のギリギリのキワにいる「サポートベクター」だけを基準にして境界線を引きます。そのため、以前に学んだ外れ値やノイズに対しても非常にタフ(堅牢 / ロバスト)であるという、美しい繋がりを持っています。


6. まとめ

DS検定において「非線形データを高次元に飛ばして線形分離する」「SVM」というキーワードが来たら「カーネル法」です。実務のデータコンペ(Kaggleなど)でも、データ構造によっては非常に強力な選択肢となるクラシックな名手法ですので、その幾何学的なイメージをしっかり押さえておきましょう!

PR

【DS検定対策】サブスクビジネスの命綱!顧客の離脱を防ぐ「チャーン分析」

新規顧客を獲得するよりも、既存の顧客に長く続けてもらう方がコストを低く抑えられます。顧客がサービスを解約(離脱)する予兆をデータから予測する手法が、チャーン分析です。

1. 【 問題 】

サブスクリプション型のサービスや会員制ビジネスにおいて、顧客が契約を解除したりサービスを利用しなくなったりする「解約・離脱」の行動やその確率を、過去の利用履歴データ(アクセス頻度、契約期間、サポートへの問い合わせ回数など)から予測・分析する手法を何と呼ぶでしょうか?

① バスケット分析
② チャーン分析(解約・離脱分析)
③ アソシエーション分析
④ ABC分析


2. 【 解答 】

正解: ② チャーン分析(解約・離脱分析)

3. 整理:チャーン分析で「予測の手がかり」となるデータ(特徴量)

顧客が解約する前には、高確率で行動に「サイン(変化)」が現れます。データサイエンティストは以下のような特徴量をモデルに投入して予測を行います。

データカテゴリ解約の予兆(フラグ)となりやすい変化
1. 利用頻度の減少 「ログイン回数が先月比で急激に減った」「動画の視聴時間が短くなった」など、サービスへのエンゲージメント(熱量)の低下。
2. 顧客属性・契約プラン 「無料トライアル期間の終了間際」「特定のキャンペーン経由で入会した」など、元からの定着度の低さ。
3. ネガティブな体験 「システムの不具合(エラー)を何度も経験した」「カスタマーサポートに複数回クレームや問い合わせを入れている」など。

データサイエンティストの戦い方:
これまでに学んだ「LightGBM」や「ロジスティック回帰」などの機械学習アルゴリズムを用いて、「この顧客はあと1ヶ月以内に80%の確率で解約する」といった予測を算出します。マーケティングチームはその予測を基に、解約されそうなユーザーだけに限定してクーポンを配信する、といった効率的な引き止め施策を打ちます。


5. DS検定形式:実戦4択クイズ

問:チャーン予測モデルを構築した際、すでに解約してしまった過去のユーザーのデータだけを分析対象とし、途中でプランを変更したユーザーや現在も継続しているユーザーの行動ログを除外してモデルを評価した。このときに警戒すべき、以前の講義で学んだデータの偏り(バイアス)として最も適切なものはどれか。

① 自己選択バイアス   ② 脱落バイアス   ③ 出版バイアス   ④ 確定バイアス

【 正解: ② 】

解説: 解約という「途中の離脱(脱落)」が起きた結果のデータだけを後から見て、そのプロセス(時間の経過に伴う変化)や現役ユーザーとの違いを無視して集計すると、正しい予測ルールが作れなくなります。まさに脱落バイアスへの配慮が必要な典型例です。


6. まとめ

DS検定において「顧客の解約・離脱を予測・分析する手法」という主旨の問題が出たら、迷わず「チャーン分析」を選択しましょう。実務において、機械学習モデルが企業の売上守備を固めるための最たる応用例ですので、ビジネス理解とセットでしっかりと押さえておきましょう!

【DS検定対策】因果関係を証明する黄金基準!「ランダム化比較試験(RCT)」の仕組み

データ分析で最も難しいのが「因果関係」の証明です。相関関係(たまたま一緒に動いているだけ)に騙されず、本当の効果を正しく見極めるための強力な実験手法が、ランダム化比較試験(RCT)です。

1. 【 問題 】

ある施策や新薬などの「本当の効果(因果関係)」を正しく測定するため、対象者を自発的な参加ではなく、確率的に完全に均等な2つのグループ(介入群と対照群)にランダムに割り振って比較する実験手法を何と呼ぶでしょうか?

① ランダム化比較試験(RCT)
② 段階的要因分析
③ 後ろ向きコホート調査
④ 主成分回帰分析


2. 【 解答 】

正解: ① ランダム化比較試験(RCT)

3. 整理:なぜ「ランダム(無作為)」に分ける必要があるのか?

もし、対象者が「自分で選んで」新しい施策(例えば、新しい有料の教育プログラムなど)に参加した場合、そこには以前学んだ自己選択バイアスが働きます。プログラムを受けた人の成績が良くても、それは「プログラムの効果」ではなく「元からやる気があった人の効果」かもしれないからです。

【 RCTの基本構造(2つのグループ) 】

グループ名役割具体例(新サプリの効果測定)
1. 介入群
(試験群 / トリートメント)
新しく試したい施策や薬を「適用する」グループ。 ランダムに選ばれた50人。新しいサプリメントを毎日飲む。
2. 対照群
(コントロール群)
比較対象(基準)となる、施策を「適用しない」グループ。 ランダムに選ばれた50人。見た目が同じ偽物のサプリ(プラセボ)を飲む。

ここがポイント:
くじ引き(ランダム)で分けることによって、年齢・性別・健康状態・やる気の有無といった「あらゆる個体差(ノイズ)」が両方のグループに均等に分散されます。これにより、2つのグループに生じた最終的な差は、純粋に「施策(サプリ)の効果である」と言い切れるようになります(フィッシャーの3原則の『無作為化』の応用です)。


5. DS検定形式:実戦4択クイズ

問:インターネットビジネスにおいて、ユーザーをランダムに2つのグループに分け、従来のWebデザイン(A案)と新しいデザイン(B案)のどちらがクリック率が高いかを検証する、実務で広く使われているRCT(ランダム化比較試験)の一種を何と呼ぶか。

① 多変量解析   ② A/Bテスト   ③ 顧客ロイヤルティ分析   ④ クロス集計

【 正解: ② 】

解説: 実務で毎日のように行われている「A/Bテスト」は、統計学におけるランダム化比較試験(RCT)そのものです。サーバー側でユーザーを完全にランダムに振り分けることで、時間帯やユーザーの属性による偏りを排除し、デザインの純粋な効果を測定しています。


6. まとめ

DS検定において「因果関係を正しく測定するために、ランダムにグループに分けて比較する実験手法」という主旨が出たら、迷わず「ランダム化比較試験(RCT)」です。これまで学んできた『各種バイアス』を数理的にシャットアウトするための最強の防衛策として、その定義をしっかり覚えておきましょう!

【DS検定対策】巨大データの学習を効率化!「ミニバッチ確率的勾配降下法」

深層学習で数万、数百万という膨大なデータを一度に学習させようとすると、サーバーのメモリがパンクしてしまいます。そこでデータを程よいサイズに小分けにして賢く学習を進めるのが、ミニバッチ確率的勾配降下法です。

1. 【 問題 】

深層学習(ディープラーニング)のパラメーター(重み)を最適化するアルゴリズムにおいて、すべての訓練データを一度に処理するのではなく、データを一定の小さなグループに分割し、そのグループごとに誤差(勾配)を計算してパラメーターを更新する手法を何と呼ぶでしょうか?

① バッチ学習(最急降下法)
② 確率的勾配降下法(SGD:1件ずつ処理)
③ ミニバッチ確率的勾配降下法(Mini-batch SGD)
④ ランダムフォレスト


2. 【 解答 】

正解: ③ ミニバッチ確率的勾配降下法(Mini-batch SGD)

3. 整理:データの処理方法による3つの違い

パラメーターを更新する(山を下るように最適解を探す)アプローチには、処理するデータの「塊(サイズ)」によって3つの選択肢があります。それぞれのメリット・デメリットを整理しましょう。

手法名処理の単位(バッチサイズ)メリットと弱点
バッチ学習
(最急降下法)
訓練データ全件(例:1000個)を一度に処理して、1回だけパラメーターを更新する。 ◯ 動きが安定する。
✕ メモリを大量に消費し、計算が非常に遅い。
確率的勾配降下法
(SGD)
ランダムに選んだ「たった1件」のデータごとに、毎回パラメーターを更新する。 ◯ メモリ消費が最小で、動きが速い。
✕ 1件ごとのノイズに振り回され、挙動が激しくブレる。
ミニバッチ学習
★今回の主役
データを小分けにした「適切な塊(例:100個ずつ)」ごとにパラメーターを更新する。 両者のいいとこ取り。GPUの並列計算をフルに活かせ、ノイズも適度にいなせるため、現代の深層学習の主流。

4. 覚えておきたい関連用語:「エポック」と「イテレーション」

ミニバッチ学習を実装・運用する際には、以下の2つの単位がログや設定ファイル(ハイパーパラメーター)に必ず登場します。

イテレーション(Iteration): パラメーターを「1回更新」する単位。1000個のデータを100個ずつのミニバッチに分けた場合、1周するのに10イテレーションかかります。
エポック(Epoch): 訓練データ「全件を1通り使い切る」単位。1000個のデータをすべて1回ずつ学習に使い終えたら1エポックと数えます。


5. DS検定形式:実戦4択クイズ

問:ミニバッチ確率的勾配降下法において、分割された小さなデータグループ(ミニバッチ)のデータ数のことを何と呼ぶか。

① バッチサイズ   ② エポック数   ③ 学習率   ④ ドロップアウト率

【 正解: ① 】

解説: グループ内のデータ数を「バッチサイズ」と呼びます。実務では 32、64、128、256 といった2の累乗の数値がよく設定されます。このサイズが大きすぎるとメモリ(VRAM)不足になり、小さすぎると処理の効率が落ちるため、インフラ環境に合わせて調整する重要なパラメーターです。


6. まとめ

DS検定において「訓練データをより小さなグループに分けて処理を行う」というアルゴリズムが出たら「ミニバッチ確率的勾配降下法」です。前回学んだ「ドロップアウト」などと組み合わせることで、現代の巨大なニューラルネットワーク(深層学習)は高速かつ頑健に学習できるようになっています!

【DS検定対策】あえて通信を遮断!「ドロップアウト」で過学習を防ぐ

ニューラルネットワークが賢くなりすぎる(手元のデータを丸暗記する)のを防ぐため、学習のたびにネットワークの間引きを行うユニークな技術、それがドロップアウトです。

1. 【 問題 】

深層学習(ディープラーニング)の学習プロセスにおいて、過学習(オーバーフィッティング)を抑制するための「正則化」の手法の一つであり、各層のニューロン(ノード)をランダムに一定の確率で無効化(不活性化)しながら学習を進める手法を何と呼ぶでしょうか?

① プルーニング(枝刈り)
② バッチ正規化(Batch Normalization)
③ ドロップアウト(Dropout)
④ 知識蒸留


2. 【 解答 】

正解: ③ ドロップアウト(Dropout)

3. 整理:なぜ「ランダムにサボらせる」と強くなるのか?

すべてのニューロンが常にフル稼働していると、特定のニューロン同士が強く依存し合ってしまい、手元の訓練データに過剰に適合(丸暗記)しやすくなります。

【 ドロップアウトの効果 】

学習時(訓練時)
毎回、ランダムにいくつかのニューロンを「お休み」にさせます。残されたニューロンだけでなんとか正解を導き出さなければならないため、特定のルートに頼らない「どこが欠けてもタフに予測できる堅牢(ロバスト)なネットワーク」が育ちます。

推論時(本番環境での予測)
すべてのニューロンをフル稼働させます。ただし、学習時よりも全体の出力が大きくなってしまうため、ドロップアウトさせた確率を掛け算して「出力を調整」する処理が行われます。

4. 以前学んだ「アンサンブル学習」との関係

ドロップアウトは、学習のたびに毎回異なる「少しずつ形の違う小規模なネットワーク」を大量に作り、それらを最終的に1つに統合して予測していると解釈することもできます。
つまり、深層学習の内部で自動的にアンサンブル学習(複数のモデルの多数決)を行っているような効果が得られるため、非常に強力に過学習を防ぐことができるのです。


5. DS検定形式:実戦4択クイズ

問:深層学習における過学習対策(正則化)のうち、ドロップアウトのようにニューロンを無効化するのではなく、損失関数(誤差の計算式)にパラメーター(重み)の大きさそのものをペナルティとして加算することで、重みが極端に大きくなるのを防ぐ手法を何と呼ぶか。

① 勾配クリッピング   ② L1 / L2 正則化   ③ データの拡張(Data Augmentation)   ④ 早期終了(Early Stopping)

【 正解: ② 】

解説: 重みにペナルティを課してモデルの複雑さを抑える王道の手法が「L1 / L2 正則化(リッジ回帰やラッソ回帰のベースとなる仕組み)」です。ドロップアウトと並び、過学習を阻止するための2大兵器として試験によく出題されます。


6. まとめ

DS検定において「ランダムにニューロンを無効化」「過学習を防ぐ」という記述が登場したら「ドロップアウト」です。以前に学んだ「深層学習」を実務で使えるレベルに安定させるための重要な周辺技術ですので、そのタフな仕組みをしっかり覚えておきましょう!