【DS検定対策】似たもの同士を集める！「k平均法」のアルゴリズム

答え（ラベル）のないデータから、AIが自らグループを見つけ出す「クラスタリング」。その中でも最も基本的で強力な手法が「k平均法」です。

1. 【問題】

k平均法（k-means法）を用いて、データの集合をk個のクラスタに分割する際の手順や条件として、適切なものはどれでしょうか？

① 各標本（データ）は、全データの平均値に最も近いクラスタに属する。
② 各標本は、k個の重心のうち、自身から最も距離が近い重心のクラスタに属する。
③ データの数（n）をkで割った同数のグループをランダムに作成する。
④ 各標本は、あらかじめ決められた「正解ラベル」に最も近いクラスタに属する。

2. 【解答】

正解： ② 各標本は、k個の重心のうち、自身から最も距離が近い重心のクラスタに属する。

3. 整理：繰り返しで「重心」を最適化する

k平均法は、以下の「割り当て」と「更新」のステップを繰り返すことで、最適なグループ分けを完成させます。

【 k平均法のステップ】

[ STEP 1 ]

ランダムにk個の「重心」を決める。

[ STEP 2：割り当て ]

★ 各データは、一番近い重心のチームに所属する。

[ STEP 3：更新 ]

各チームに所属したデータの「平均位置」を計算し、そこを新しい重心にする。

[ STEP 4：繰り返し ]

重心の位置が動かなくなるまでSTEP 2と3を繰り返す。

--------------------------

◎ 特徴： 「非教師あり学習」であるため、正解データなしでデータを分類できます。

4. 知っておくべきポイント

1. kの値は人間が決める: 最初に「いくつのグループに分けるか（k）」を人間が指定する必要があります。
2. 初期値に依存する: 最初にランダムに決める重心の位置によって、結果が変わってしまうことがあります。
3. エルボー法: 最適なk（グループ数）を決めるための代表的な手法です。

5. DS検定形式：実戦4択クイズ

問：k平均法において、クラスタ内のデータと重心の距離の合計（誤差の二乗和）が最小になるように最適化が行われますが、この「距離」として一般的に用いられるものはどれか。

① ハミング距離 ② ユークリッド距離 ③ ジャッカード係数 ④ 編集距離

【正解： ② 】

解説： 直線的な距離を測る「ユークリッド距離」を用いるのが標準的です。データ同士の幾何学的な近さを基準にグループ化を行います。

6. まとめ

DS検定において「重心」「最も近いクラスタに属する」「非教師あり学習」というキーワードが出たら「k平均法」です。マーケティングの顧客セグメンテーションなど、実務でも非常に使い勝手の良い手法なので、しっかり押さえておきましょう！