忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】言葉の「つながり」を可視化!共起分析とネットワーク図

特定の単語が「どの単語と一緒に使われやすいか」を分析することで、文章の背後にあるテーマや構造を浮き彫りにするのが共起分析です。

1. 【 問題 】

テキストマイニングにおいて、一つの文章や文の中に、複数の特定の単語が同時に出現する状態を「共起」と呼びます。この共起関係を統計的に分析し、図(ネットワーク図)などで可視化する手法を何と呼ぶでしょうか?

① センチメント分析
② 共起分析
③ 主成分分析
④ 対応分析(コレスポンデンス分析)


2. 【 解答 】

正解: ② 共起分析

3. 整理:「セットで現れる」ことに意味がある

単語の出現回数だけでは、「何について語られているか」の深い文脈は分かりません。共起分析をすることで、言葉のネットワークが見えてきます。

【 共起分析の可視化:共起ネットワーク 】

[ 図の読み方 ]
ノード(円):単語を表す。大きいほど出現頻度が高い。
エッジ(線):共起関係を表す。太いほど「セット」で使われる度合いが強い。

(例:スマートフォンのレビュー分析)
「バッテリー」──「持ち」:電池の寿命に関する話題
「カメラ」──「暗所」:夜景撮影に関する話題
--------------------------

活用例:
・アンケート自由記述から「不満の構造」を特定する。
・ニュース記事からトレンドワードの関連性を探る。

4. 共起の強さを測る指標

単に同時に出た回数だけでなく、以下の指標がよく使われます。
1. Jaccard(ジャカード)係数: 2つの単語がどれだけ「いつも一緒」にいるかの割合。DS検定でもよく問われる指標です。
2. Dice係数 / Simpson係数: 共起の度合いを測るための統計的指標。


5. DS検定形式:実戦4択クイズ

問:共起分析の結果を可視化した「共起ネットワーク図」において、単語間の結びつきの強さを表す線のことを何と呼ぶか。

① ノード   ② セントロイド   ③ エッジ   ④ クラスタ

【 正解: ③ 】

解説: 円(点)をノード、それらを結ぶ線をエッジと呼びます。共起分析では、このエッジが太いほど、その単語ペアに強い関連性があることを示します。


6. まとめ

DS検定において「単語の同時出現」「ネットワーク図による可視化」というキーワードが出たら「共起分析」です。頻度だけでは見落としてしまう「文脈」を捉えるための強力なツールとして覚えておきましょう!

PR