【DS検定対策】グループ分けの基準を作る!「判別分析」の仕組み
未知のデータが「Aグループ」か「Bグループ」か、どちらに属するかを予測したい。そんなときに、境界線となる「判別関数」を作り出す手法が「判別分析」です。
1. 【 問題 】
既にどのグループに属しているかが分かっているデータをもとに、未知のデータがどのグループに属するかを判定するための基準(関数)を作成する統計的手法を何と呼ぶでしょうか?
① 主成分分析
② クラスター分析
③ 判別分析
④ 因子分析
2. 【 解答 】
3. 整理:グループを「最も効率よく」分ける線
判別分析は、グループ内のバラツキ(分散)を小さくし、グループ同士の離れ具合(分散)を最大にするような「境界線(判別平面)」を見つけ出します。
【 判別分析のイメージ 】
「購入した客」と「購入しなかった客」の年齢・年収データ。
[ 2. 判別関数の作成 ]
★ ここが判別分析!
2つのグループが最もきれいに分かれる「物差し(境界線)」を計算。
[ 3. 未知データの判定 ]
新しい客のデータをその物差しに当てはめ、どちらのグループに近いか判定。
--------------------------
◎ 特徴: 分類するだけでなく、「どの変数が分類に最も影響を与えているか」を分析できるのも大きなメリットです。
4. 間違いやすいポイント
1. クラスター分析との違い: 判別分析は「答え(グループ名)が既にある」データを使う教師あり学習です。クラスター分析は答えがない状態から分ける「教師なし学習」です。
2. 線形判別分析 (LDA): 最も一般的な手法で、境界線を直線(平面)で引きます。
3. 実務での活用: 銀行の融資審査(貸せるか・貸せないか)や、病気の診断(陽性か・陰性か)などに使われます。
5. DS検定形式:実戦4択クイズ
問:2つのグループを分ける際、境界線が直線で表されるものを「線形判別分析」と呼びますが、境界線が曲線(2次式)になる手法を何と呼ぶか。
① 重回帰分析 ② 2次判別分析 ③ 曲線判別分析 ④ 非線形回帰
【 正解: ② 】
解説: 各グループの分散が異なると仮定し、境界線が曲線(2次の多項式)になるものを「2次判別分析」と呼びます。線形判別よりも複雑な境界を引くことができます。
6. まとめ
DS検定において「未知のデータがどのグループに属するか判定する」「境界線(判別関数)を作る」という記述が出たら「判別分析」が正解です。教師あり学習の分類手法として、ロジスティック回帰と並んで基礎となる重要用語です!