【DS検定対策】似たもの同士を集める!「k平均法」のアルゴリズム
答え(ラベル)のないデータから、AIが自らグループを見つけ出す「クラスタリング」。その中でも最も基本的で強力な手法が「k平均法」です。
1. 【 問題 】
k平均法(k-means法)を用いて、データの集合をk個のクラスタに分割する際の手順や条件として、適切なものはどれでしょうか?
① 各標本(データ)は、全データの平均値に最も近いクラスタに属する。
② 各標本は、k個の重心のうち、自身から最も距離が近い重心のクラスタに属する。
③ データの数(n)をkで割った同数のグループをランダムに作成する。
④ 各標本は、あらかじめ決められた「正解ラベル」に最も近いクラスタに属する。
2. 【 解答 】
3. 整理:繰り返しで「重心」を最適化する
k平均法は、以下の「割り当て」と「更新」のステップを繰り返すことで、最適なグループ分けを完成させます。
【 k平均法のステップ 】
ランダムにk個の「重心」を決める。
[ STEP 2:割り当て ]
★ 各データは、一番近い重心のチームに所属する。
[ STEP 3:更新 ]
各チームに所属したデータの「平均位置」を計算し、そこを新しい重心にする。
[ STEP 4:繰り返し ]
重心の位置が動かなくなるまでSTEP 2と3を繰り返す。
--------------------------
◎ 特徴: 「非教師あり学習」であるため、正解データなしでデータを分類できます。
4. 知っておくべきポイント
1. kの値は人間が決める: 最初に「いくつのグループに分けるか(k)」を人間が指定する必要があります。
2. 初期値に依存する: 最初にランダムに決める重心の位置によって、結果が変わってしまうことがあります。
3. エルボー法: 最適なk(グループ数)を決めるための代表的な手法です。
5. DS検定形式:実戦4択クイズ
問:k平均法において、クラスタ内のデータと重心の距離の合計(誤差の二乗和)が最小になるように最適化が行われますが、この「距離」として一般的に用いられるものはどれか。
① ハミング距離 ② ユークリッド距離 ③ ジャッカード係数 ④ 編集距離
【 正解: ② 】
解説: 直線的な距離を測る「ユークリッド距離」を用いるのが標準的です。データ同士の幾何学的な近さを基準にグループ化を行います。
6. まとめ
DS検定において「重心」「最も近いクラスタに属する」「非教師あり学習」というキーワードが出たら「k平均法」です。マーケティングの顧客セグメンテーションなど、実務でも非常に使い勝手の良い手法なので、しっかり押さえておきましょう!