忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】似たもの同士を集める!「k平均法」のアルゴリズム

答え(ラベル)のないデータから、AIが自らグループを見つけ出す「クラスタリング」。その中でも最も基本的で強力な手法が「k平均法」です。

1. 【 問題 】

k平均法(k-means法)を用いて、データの集合をk個のクラスタに分割する際の手順や条件として、適切なものはどれでしょうか?

① 各標本(データ)は、全データの平均値に最も近いクラスタに属する。
② 各標本は、k個の重心のうち、自身から最も距離が近い重心のクラスタに属する。
③ データの数(n)をkで割った同数のグループをランダムに作成する。
④ 各標本は、あらかじめ決められた「正解ラベル」に最も近いクラスタに属する。


2. 【 解答 】

正解: ② 各標本は、k個の重心のうち、自身から最も距離が近い重心のクラスタに属する。

3. 整理:繰り返しで「重心」を最適化する

k平均法は、以下の「割り当て」と「更新」のステップを繰り返すことで、最適なグループ分けを完成させます。

【 k平均法のステップ 】

[ STEP 1 ]
ランダムにk個の「重心」を決める。

[ STEP 2:割り当て ]
★ 各データは、一番近い重心のチームに所属する。

[ STEP 3:更新 ]
各チームに所属したデータの「平均位置」を計算し、そこを新しい重心にする。

[ STEP 4:繰り返し ]
重心の位置が動かなくなるまでSTEP 2と3を繰り返す。

--------------------------

特徴: 「非教師あり学習」であるため、正解データなしでデータを分類できます。

4. 知っておくべきポイント

1. kの値は人間が決める: 最初に「いくつのグループに分けるか(k)」を人間が指定する必要があります。
2. 初期値に依存する: 最初にランダムに決める重心の位置によって、結果が変わってしまうことがあります。
3. エルボー法: 最適なk(グループ数)を決めるための代表的な手法です。


5. DS検定形式:実戦4択クイズ

問:k平均法において、クラスタ内のデータと重心の距離の合計(誤差の二乗和)が最小になるように最適化が行われますが、この「距離」として一般的に用いられるものはどれか。

① ハミング距離   ② ユークリッド距離   ③ ジャッカード係数   ④ 編集距離

【 正解: ② 】

解説: 直線的な距離を測る「ユークリッド距離」を用いるのが標準的です。データ同士の幾何学的な近さを基準にグループ化を行います。


6. まとめ

DS検定において「重心」「最も近いクラスタに属する」「非教師あり学習」というキーワードが出たら「k平均法」です。マーケティングの顧客セグメンテーションなど、実務でも非常に使い勝手の良い手法なので、しっかり押さえておきましょう!

PR