忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】AIの「知識の源」!コーパス(Corpus)の重要性

AIが言葉を理解し、生成するためには、お手本となる膨大な文章データが必要です。単なるテキストの集まりを超えた「コーパス」の役割を学びましょう。

1. 【 問題 】

自然言語処理において、言語の法則や構造を抽出するために、実際の言語使用例を大量に集め、検索や分析ができるように構造化したデータベースを何と呼ぶでしょうか?

① 形態素
② コーパス(Corpus)
③ オントロジー
④ シソーラス


2. 【 解答 】

正解: ② コーパス(Corpus)

3. 整理:ただの「文章」と「コーパス」の違い

インターネット上の文章をただ集めただけでは、質の高いAIは育ちません。コーパスには「構造化」という重要な工程が含まれます。

【 コーパスを構成する要素 】

[ 1. 生テキスト(Raw Text) ]
小説、ニュース、SNS、論文など、実際に使われている文章。

[ 2. アノテーション(メタデータ) ]
★ ここが重要!
単語ごとに「品詞情報」を付与したり、文の「感情スコア」を付けたりして、コンピュータが処理しやすい情報を付け加えること。

--------------------------

代表的なコーパス:
・現代日本語書き言葉均衡コーパス(BCCWJ)
・Wikipediaのダンプデータ
・青空文庫のテキストデータ

4. コーパスの活用シーン

1. 辞書・文法作成: 言葉の使われ方を統計的に分析し、より自然な文法モデルを作ります。
2. LLMの学習: ChatGPTなどの大規模言語モデルも、Web上の巨大なコーパスを学習することで言語能力を獲得しています。
3. 翻訳精度向上: 対訳コーパス(日本語と英語が対になったデータ)により、翻訳AIを強化します。


5. DS検定形式:実戦4択クイズ

問:コーパスに品詞情報などの付随情報を追加する作業を一般に何と呼ぶか。

① クレンジング   ② アノテーション   ③ スクレイピング   ④ トークン化

【 正解: ② 】

解説: データに対して「ラベル」や「注釈」を付ける作業をアノテーションと呼びます。コーパスの価値は、このアノテーションの質と量で決まると言っても過言ではありません。


6. まとめ

DS検定において「言語を構造化したデータベース」「大量の使用例」という表現が出たら「コーパス」です。データベースエンジニアとしても、非構造化データを構造化データに変える「情報の宝庫」として覚えておきたい用語ですね!

PR

【DS検定対策】言葉の「つながり」を可視化!共起分析とネットワーク図

特定の単語が「どの単語と一緒に使われやすいか」を分析することで、文章の背後にあるテーマや構造を浮き彫りにするのが共起分析です。

1. 【 問題 】

テキストマイニングにおいて、一つの文章や文の中に、複数の特定の単語が同時に出現する状態を「共起」と呼びます。この共起関係を統計的に分析し、図(ネットワーク図)などで可視化する手法を何と呼ぶでしょうか?

① センチメント分析
② 共起分析
③ 主成分分析
④ 対応分析(コレスポンデンス分析)


2. 【 解答 】

正解: ② 共起分析

3. 整理:「セットで現れる」ことに意味がある

単語の出現回数だけでは、「何について語られているか」の深い文脈は分かりません。共起分析をすることで、言葉のネットワークが見えてきます。

【 共起分析の可視化:共起ネットワーク 】

[ 図の読み方 ]
ノード(円):単語を表す。大きいほど出現頻度が高い。
エッジ(線):共起関係を表す。太いほど「セット」で使われる度合いが強い。

(例:スマートフォンのレビュー分析)
「バッテリー」──「持ち」:電池の寿命に関する話題
「カメラ」──「暗所」:夜景撮影に関する話題
--------------------------

活用例:
・アンケート自由記述から「不満の構造」を特定する。
・ニュース記事からトレンドワードの関連性を探る。

4. 共起の強さを測る指標

単に同時に出た回数だけでなく、以下の指標がよく使われます。
1. Jaccard(ジャカード)係数: 2つの単語がどれだけ「いつも一緒」にいるかの割合。DS検定でもよく問われる指標です。
2. Dice係数 / Simpson係数: 共起の度合いを測るための統計的指標。


5. DS検定形式:実戦4択クイズ

問:共起分析の結果を可視化した「共起ネットワーク図」において、単語間の結びつきの強さを表す線のことを何と呼ぶか。

① ノード   ② セントロイド   ③ エッジ   ④ クラスタ

【 正解: ③ 】

解説: 円(点)をノード、それらを結ぶ線をエッジと呼びます。共起分析では、このエッジが太いほど、その単語ペアに強い関連性があることを示します。


6. まとめ

DS検定において「単語の同時出現」「ネットワーク図による可視化」というキーワードが出たら「共起分析」です。頻度だけでは見落としてしまう「文脈」を捉えるための強力なツールとして覚えておきましょう!

【DS検定対策】言葉の裏の「感情」を読み解く!センチメント分析

テキストデータから「嬉しい」「悲しい」「不満」といった感情の傾向を抽出する。顧客の声をビジネスに活かすための必須技術が、センチメント分析です。

1. 【 問題 】

テキストマイニングにおいて、文章の中から書き手の主観的な感情や態(ポジティブ、ネガティブ、ニュートラルなど)を判定する手法を何と呼ぶでしょうか?

① 形態素解析
② センチメント分析(感情分析)
③ 構文解析
④ トピックモデル


2. 【 解答 】

正解: ② センチメント分析(感情分析)

3. 整理:どうやって「感情」を判定するのか?

センチメント分析には、大きく分けて「辞書ベース」と「機械学習ベース」の2つのアプローチがあります。

【 感情分析の仕組み 】

[ 1. 感情極性辞書による方法 ]
「美味しい」「速い」=ポジティブ (+1)
「壊れた」「遅い」=ネガティブ (-1)
といった辞書を用意し、文章内の単語の合計スコアで判定する。

[ 2. 機械学習による方法 ]
大量の「ポジティブな文章」と「ネガティブな文章」をAIに学習させ、新しい文章の傾向を予測させる。

--------------------------

活用例:
・新商品のTwitter(X)での評判調査
・コールセンターへの問い合わせ内容の自動仕分け
・アンケートの自由記述欄の満足度スコア化

4. 分析の落とし穴

1. 皮肉や二重否定: 「最高に最悪だ」のような皮肉や、「悪くない」といった表現は、単語レベルの辞書だけでは誤判定しやすいため、文脈の理解が求められます。
2. ドメイン(分野)依存: 映画のレビューでの「ヤバい」はポジティブかもしれませんが、医療データでの「ヤバい」は深刻なネガティブです。


5. DS検定形式:実戦4択クイズ

問:センチメント分析において、単語ごとにポジティブ・ネガティブの度合いを数値化したリストのことを何と呼ぶか。

① ストップワードリスト   ② 感情極性辞書   ③ 逆文書頻度   ④ コーパス

【 正解: ② 】

解説: 単語に「感情の極性(プラス・マイナス)」を持たせた辞書です。日本語では「日本語評価極性辞書」などが有名です。


6. まとめ

DS検定において「主観的な感情」「ポジネガ判定」というキーワードが出たら「センチメント分析」です。テキストデータの「量」だけでなく「質」を測るための手法として、しっかりマスターしておきましょう!

【DS検定対策】「結果」の裏に「原因」あり!潜在変数モデルの思考法

私たちが観測しているデータは、実は「氷山の一角」に過ぎません。その水面下に隠れた「真の姿」からデータが生まれると考えるのが、潜在変数モデルです。

1. 【 問題 】

潜在変数モデルにおけるデータの生成プロセスに関する説明として、最も適切なものはどれでしょうか?

① 観測データから直接、別の観測データを予測する。
② 最初に潜在変数が生成され、次にその潜在変数に基づいて観測データが生成される。
③ 観測データをランダムに入れ替えて、新しい特徴量を作成する。
④ 潜在変数と観測変数を区別せず、すべて等しく入力データとして扱う。


2. 【 解答 】

正解: ② 最初に潜在変数が生成され、次にその潜在変数に基づいて観測データが生成される。

3. 整理:潜在変数モデルの「2段階プロセス」

このモデルでは、データが世の中に現れるまでのストーリーを次のように仮定します。

【 データの誕生ストーリー 】

[ Step 1:潜在変数の決定 ]
目に見えない「本質」が決まる。
(例:この画像は「猫」という概念であり、右を向いている)
 ↓
[ Step 2:データの生成 ]
潜在変数に基づいて、具体的な数値が現れる。
(例:各ピクセルの色が決定し、1枚の画像データになる)

--------------------------

この考え方のメリット:
複雑で膨大なデータ(画像など)も、少数の「潜在変数(特徴)」に集約して理解・制御できるようになります。

4. 代表的な潜在変数モデル

1. 因子分析: 複数のテストの点数から「知能」という潜在変数を探ります。
2. 混合ガウスモデル(GMM): データがどのグループ(潜在的なクラス)に属しているかを考えます。
3. VAE / GAN: 低次元の潜在空間(ベクトル)から、高解像度の画像を生成します。
4. トピックモデル(LDA): 文書が書かれる前に「トピック(話題)」が選ばれると仮定します。


5. DS検定形式:実戦4択クイズ

問:潜在変数モデルにおいて、観測データから逆方向に「潜在変数」を推定する操作を一般に何と呼ぶか。

① 推論(推計)   ② 蒸留   ③ 正則化   ④ 標準化

【 正解: ① 】

解説: 「潜在変数(原因)からデータ(結果)」ができるのが生成ですが、私たちが分析時に行う「データ(結果)から潜在変数(原因)」を特定する作業は「推論(Inference)」と呼ばれます。


6. まとめ

DS検定において「潜在変数が先に生成され、それに基づいてデータが生成される」という記述が出たら、まさに潜在変数モデルの本質を突いた表現です。この「原因 → 結果」の順序を意識することで、多くの複雑なアルゴリズムをシンプルに整理できるようになります!

【DS検定対策】文章をバラバラに分解!「形態素解析」の仕組みと役割

AIに文章を理解させる第一歩は、文章を「これ以上分けられない最小単位」にまで分解することです。そのプロセスと重要性を学びましょう。

1. 【 問題 】

テキストデータを分析する際、文章を意味を持つ最小の単位に分割し、それぞれの品詞(名詞、動詞、助詞など)を判別する作業を何と呼ぶでしょうか?

① 構文解析
② 形態素解析
③ 意味解析
④ 感情分析


2. 【 解答 】

正解: ② 形態素解析

3. 整理:文章を「意味の最小パーツ」に分ける

英語は単語がスペースで区切られていますが、日本語はどこで区切るかをAIが判断しなければなりません。

【 形態素解析の実行イメージ 】

[ 元の文章 ]
「すもももももももものうち」

[ 解析結果 ]
・すもも(名詞)
・も(助詞)
・もも(名詞)
・も(助詞)
・もも(名詞)
・の(助詞)
・うち(名詞)

--------------------------

ポイント: この「すもも」や「も」のように、意味を持つ最小の単位を「形態素」と呼びます。

4. なぜ形態素解析が必要なのか?

1. 不要な語の除去(ストップワード): 「の」や「です」などの頻出するが分析に不要な語を除外できます。
2. 単語の正規化: 「走っ(た)」や「走ら(ない)」を、辞書の見出し語である「走る」に統一して集計できます。
3. 特徴量の抽出: 「名詞だけを抜き出して、頻出ワードのランキングを作る」といった分析が可能になります。


5. DS検定形式:実戦4択クイズ

問:日本語の形態素解析を行うための代表的なオープンソースのライブラリ(ツール)はどれか。

① Pandas   ② MeCab   ③ NumPy   ④ Matplotlib

【 正解: ② 】

解説: 日本語の形態素解析エンジンとしては「MeCab(メカブ)」が非常に有名です。その他、JanomeやSudachiなどもよく使われます。①③④は数値計算やデータ操作用のライブラリです。


6. まとめ

DS検定において「最小単位に分割」「品詞を決定」という記述が出たら「形態素解析」です。テキストマイニングを行う上での「前処理」として欠かせない工程であることを覚えておきましょう!

        
  • 1
  • 2
  • 3