忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】「中身」で勝負!コンテンツベースフィルタリングの仕組み

「この映画のアクションシーンが好きなら、こっちのアクション映画もどう?」アイテムの特徴そのものに注目するのが、コンテンツベースフィルタリングです。

1. 【 問題 】

レコメンドシステムにおいて、アイテムのジャンル、テキスト説明、メタデータなどの属性情報を分析し、ユーザーが過去に好んだアイテムと特徴が類似したアイテムを推薦する手法を何と呼ぶでしょうか?

① 協調フィルタリング
② 内容ベース(コンテンツベース)フィルタリング
③ 相関分析
④ クラスター分析


2. 【 解答 】

正解: ② 内容ベース(コンテンツベース)フィルタリング

3. 整理:アイテムの「プロフィール」を比較する

この手法では、まず各アイテムを「特徴ベクトル」として表現します。

【 コンテンツベースの流れ 】

[ 1. アイテムの属性抽出 ]
映画A:[ジャンル:SF, 監督:〇〇, 主演:△△]
映画B:[ジャンル:SF, 監督:××, 主演:△△]

[ 2. ユーザープロファイルの作成 ]
ユーザーが過去に見た映画から、「この人は『SF』と『主演:△△』を好む」という傾向を数値化する。

[ 3. 類似度の計算 ]
ユーザーの好みと、未視聴のアイテムの「属性」がどれだけ近いかを計算し、高い順に勧める。

--------------------------

メリット: 他のユーザーのデータが不要なため、新商品(誰も買っていないもの)でも特徴さえ分かればレコメンド可能です!

4. 協調フィルタリングとの比較(ここが試験に出る!)

手法注目するデータ新商品への対応
協調 他人の購入履歴 苦手(データがないため)
コンテンツ アイテムの属性 得意(属性で判断できる)

5. DS検定形式:実戦4択クイズ

問:コンテンツベースフィルタリングの弱点として、ユーザーの過去の好みに似たものばかりが選ばれ、意外性のある提案ができなくなる現象を何と呼ぶか。

① コールドスタート問題   ② オーバーフィッティング   ③ フィルターバブル   ④ 勾配消失

【 正解: ③ 】

解説: 自分の好きなジャンルばかりに囲まれてしまい、新しいジャンルに出会えなくなることを「フィルターバブル(またはセレンディピティの欠如)」と呼びます。


6. まとめ

DS検定において「アイテムの属性」「特徴の類似」というキーワードが出たら「コンテンツベース」です。協調フィルタリングが「他人の行動」を見るのに対し、こちらは「アイテムの中身」を見る、という違いを明確にしておきましょう!


PR