忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】名前のワナを攻略!分類の王道「ロジスティック回帰」

統計学や機械学習を学び始めると最初にぶつかる「名前の矛盾」。それが「ロジスティック回帰」です。なぜ回帰なのに分類なのか、その仕組みをスッキリ整理しましょう。

1. 【 問題 】

「ロジスティック回帰」に関する説明として、最も適切なものはどれでしょうか?

① 数値を予測する「回帰」の手法であり、住宅価格の予想などに用いられる。
② データを2つのクラスに分ける「分類」の手法であり、ある事象が起こる確率を予測する。
③ データのグループ化を行う「非教師あり学習」の手法である。
④ 決定木をたくさん組み合わせた「アンサンブル学習」の手法である。


2. 【 解答 】

正解: ② データを2つのクラスに分ける「分類」の手法

3. 整理:確率を計算して「境界線」を引く世界

ロジスティック回帰は、入力データから「あるクラスに属する確率」を計算し、その値が0.5(50%)を超えたら「合格(1)」、そうでなければ「不合格(0)」のように判定します。

【 ロジスティック回帰の仕組みイメージ 】

[ 1. 入力データの計算 ]
年齢や購入履歴などのデータを、線形式で計算する。

[ 2. シグモイド関数を通す ]
★ ここが核心!
どんな大きな値(または小さな値)も、0 から 1 の範囲にギュッと押し込める。

[ 3. 確率の出力 ]
「この客が購入する確率は 0.82 (82%) です」と出力。

[ 4. 分類 ]
しきい値(0.5など)で区切り、「購入するクラス」に分類する。

--------------------------

ポイント: 計算過程で「数値を予測(回帰)」しているため名前に「回帰」と付きますが、目的は「分類」です。

4. 覚えておくべき重要キーワード

1. シグモイド関数: 出力値を0〜1の間に収めるための関数。S字型のカーブを描きます。
2. オッズ比: ある事象が起こる確率と起こらない確率の比率。ロジスティック回帰の解釈に不可欠です。
3. 二値分類: 「Yes/No」「合格/不合格」など、2つのクラスに分けるのが基本です。


5. DS検定形式:実戦4択クイズ

問:ロジスティック回帰において、出力(確率 $p$)を求める際に用いられる、以下の数式で表される関数を何と呼ぶか。
$$f(x) = \frac{1}{1 + e^{-x}}$$

① ソフトマックス関数   ② シグモイド関数   ③ 恒等関数   ④ 階段関数

【 正解: ② 】

解説: この数式は「標準シグモイド関数」と呼ばれ、ロジスティック回帰の心臓部です。$x$ がどんな値でも $f(x)$ は必ず 0 より大きく 1 より小さい値になるため、「確率」として扱うのに非常に適しています。


6. まとめ

DS検定において「回帰という名前だが分類に使われる」「シグモイド関数で確率を出力する」という特徴が出たら、迷わずロジスティック回帰を選びましょう。シンプルながら解釈性が高く、今でもビジネス現場の第一線で使われている強力な手法です!




PR