DS検定＞1-4-2.言語モデル｜いけいけ機械学習

【DS検定対策】言葉の裏の「感情」を読み解く！センチメント分析

テキストデータから「嬉しい」「悲しい」「不満」といった感情の傾向を抽出する。顧客の声をビジネスに活かすための必須技術が、センチメント分析です。

1. 【問題】

テキストマイニングにおいて、文章の中から書き手の主観的な感情や態（ポジティブ、ネガティブ、ニュートラルなど）を判定する手法を何と呼ぶでしょうか？

① 形態素解析
② センチメント分析（感情分析）
③ 構文解析
④ トピックモデル

2. 【解答】

正解： ② センチメント分析（感情分析）

3. 整理：どうやって「感情」を判定するのか？

センチメント分析には、大きく分けて「辞書ベース」と「機械学習ベース」の2つのアプローチがあります。

【感情分析の仕組み】

[ 1. 感情極性辞書による方法 ]

「美味しい」「速い」＝ポジティブ (+1)

「壊れた」「遅い」＝ネガティブ (-1)

といった辞書を用意し、文章内の単語の合計スコアで判定する。

[ 2. 機械学習による方法 ]

大量の「ポジティブな文章」と「ネガティブな文章」をAIに学習させ、新しい文章の傾向を予測させる。

--------------------------

◎ 活用例：

・新商品のTwitter（X）での評判調査

・コールセンターへの問い合わせ内容の自動仕分け

・アンケートの自由記述欄の満足度スコア化

4. 分析の落とし穴

1. 皮肉や二重否定: 「最高に最悪だ」のような皮肉や、「悪くない」といった表現は、単語レベルの辞書だけでは誤判定しやすいため、文脈の理解が求められます。
2. ドメイン（分野）依存: 映画のレビューでの「ヤバい」はポジティブかもしれませんが、医療データでの「ヤバい」は深刻なネガティブです。

5. DS検定形式：実戦4択クイズ

問：センチメント分析において、単語ごとにポジティブ・ネガティブの度合いを数値化したリストのことを何と呼ぶか。

① ストップワードリスト ② 感情極性辞書 ③ 逆文書頻度 ④ コーパス

【正解： ② 】

解説： 単語に「感情の極性（プラス・マイナス）」を持たせた辞書です。日本語では「日本語評価極性辞書」などが有名です。

6. まとめ

DS検定において「主観的な感情」「ポジネガ判定」というキーワードが出たら「センチメント分析」です。テキストデータの「量」だけでなく「質」を測るための手法として、しっかりマスターしておきましょう！

【DS検定対策】「結果」の裏に「原因」あり！潜在変数モデルの思考法

私たちが観測しているデータは、実は「氷山の一角」に過ぎません。その水面下に隠れた「真の姿」からデータが生まれると考えるのが、潜在変数モデルです。

1. 【問題】

潜在変数モデルにおけるデータの生成プロセスに関する説明として、最も適切なものはどれでしょうか？

① 観測データから直接、別の観測データを予測する。
② 最初に潜在変数が生成され、次にその潜在変数に基づいて観測データが生成される。
③ 観測データをランダムに入れ替えて、新しい特徴量を作成する。
④ 潜在変数と観測変数を区別せず、すべて等しく入力データとして扱う。

2. 【解答】

正解： ② 最初に潜在変数が生成され、次にその潜在変数に基づいて観測データが生成される。

3. 整理：潜在変数モデルの「2段階プロセス」

このモデルでは、データが世の中に現れるまでのストーリーを次のように仮定します。

【データの誕生ストーリー】

[ Step 1：潜在変数の決定 ]

目に見えない「本質」が決まる。

（例：この画像は「猫」という概念であり、右を向いている）

　↓

[ Step 2：データの生成 ]

潜在変数に基づいて、具体的な数値が現れる。

（例：各ピクセルの色が決定し、1枚の画像データになる）

--------------------------

◎ この考え方のメリット：

複雑で膨大なデータ（画像など）も、少数の「潜在変数（特徴）」に集約して理解・制御できるようになります。

4. 代表的な潜在変数モデル

1. 因子分析: 複数のテストの点数から「知能」という潜在変数を探ります。
2. 混合ガウスモデル（GMM）: データがどのグループ（潜在的なクラス）に属しているかを考えます。
3. VAE / GAN: 低次元の潜在空間（ベクトル）から、高解像度の画像を生成します。
4. トピックモデル（LDA）: 文書が書かれる前に「トピック（話題）」が選ばれると仮定します。

5. DS検定形式：実戦4択クイズ

問：潜在変数モデルにおいて、観測データから逆方向に「潜在変数」を推定する操作を一般に何と呼ぶか。

① 推論（推計） ② 蒸留 ③ 正則化 ④ 標準化

【正解： ① 】

解説： 「潜在変数（原因）からデータ（結果）」ができるのが生成ですが、私たちが分析時に行う「データ（結果）から潜在変数（原因）」を特定する作業は「推論（Inference）」と呼ばれます。

6. まとめ

DS検定において「潜在変数が先に生成され、それに基づいてデータが生成される」という記述が出たら、まさに潜在変数モデルの本質を突いた表現です。この「原因 → 結果」の順序を意識することで、多くの複雑なアルゴリズムをシンプルに整理できるようになります！

【DS検定対策】文章をバラバラに分解！「形態素解析」の仕組みと役割

AIに文章を理解させる第一歩は、文章を「これ以上分けられない最小単位」にまで分解することです。そのプロセスと重要性を学びましょう。

1. 【問題】

テキストデータを分析する際、文章を意味を持つ最小の単位に分割し、それぞれの品詞（名詞、動詞、助詞など）を判別する作業を何と呼ぶでしょうか？

① 構文解析
② 形態素解析
③ 意味解析
④ 感情分析

2. 【解答】

正解： ② 形態素解析

3. 整理：文章を「意味の最小パーツ」に分ける

英語は単語がスペースで区切られていますが、日本語はどこで区切るかをAIが判断しなければなりません。

【形態素解析の実行イメージ】

[ 元の文章 ]

「すもももももももものうち」

[ 解析結果 ]

・すもも（名詞）

・も（助詞）

・もも（名詞）

・も（助詞）

・もも（名詞）

・の（助詞）

・うち（名詞）

--------------------------

◎ ポイント： この「すもも」や「も」のように、意味を持つ最小の単位を「形態素」と呼びます。

4. なぜ形態素解析が必要なのか？

1. 不要な語の除去（ストップワード）: 「の」や「です」などの頻出するが分析に不要な語を除外できます。
2. 単語の正規化: 「走っ（た）」や「走ら（ない）」を、辞書の見出し語である「走る」に統一して集計できます。
3. 特徴量の抽出: 「名詞だけを抜き出して、頻出ワードのランキングを作る」といった分析が可能になります。

5. DS検定形式：実戦4択クイズ

問：日本語の形態素解析を行うための代表的なオープンソースのライブラリ（ツール）はどれか。

① Pandas ② MeCab ③ NumPy ④ Matplotlib

【正解： ② 】

解説： 日本語の形態素解析エンジンとしては「MeCab（メカブ）」が非常に有名です。その他、JanomeやSudachiなどもよく使われます。①③④は数値計算やデータ操作用のライブラリです。

6. まとめ

DS検定において「最小単位に分割」「品詞を決定」という記述が出たら「形態素解析」です。テキストマイニングを行う上での「前処理」として欠かせない工程であることを覚えておきましょう！

【DS検定対策】AIと外部システムを繋ぐ架け橋！「MCP (Model Context Protocol)」とは？

生成AIに「自社のデータベースを見せたい」「外部APIを叩かせたい」。そんなカスタマイズを、共通のルールで簡単に実現するのがMCPです。

1. 【問題】

Anthropic社が発表した、大規模言語モデル（LLM）と外部のデータソースやツール、他システムとの連携を共通化するためのオープンな標準プロトコルを何と呼ぶでしょうか？

① MCP (Model Context Protocol)
② RAG (Retrieval-Augmented Generation)
③ API (Application Programming Interface)
④ JSON-RPC Protocol

2. 【解答】

正解： ① MCP (Model Context Protocol)

3. 整理：AIに「手足」と「目」を与える共通規格

これまで、AIを外部システム（データベース、Slack、GitHubなど）と連携させるには、AIごとに個別の接続プログラムを書く必要がありました。MCPはここを「共通規格」で解決します。

【 MCPの役割イメージ】

[ AIクライアント (Claudeなど) ]

　　↑ (MCP規格で通信)

[ MCPサーバー (中継役) ]

　　↑ (各システム独自の接続)

[ 外部データ・ツール ]

(Google Drive, ローカルDB, GitHubなど)

--------------------------

◎ メリット： 一度MCPサーバーを作れば、異なるAIモデルやアプリから同じように外部データへアクセスできるようになります。

4. MCPでできること

1. コンテキストの提供: AIに自社の最新ドキュメントやデータベースの内容を、リアルタイムな「背景知識（コンテキスト）」として渡せます。
2. ツールの実行: AIに「このSQLを実行して結果をグラフにして」といった具体的な処理（アクション）を行わせることができます。
3. 他AIとの連携: 異なる役割を持つAI同士を連携させ、複雑なワークフローを自動化する土台になります。

5. エンジニア向け：実戦クイズ

問：MCPを導入することで、開発者が個別のAIモデル（GPTやClaudeなど）ごとに、外部データベース接続コードを書き直す手間が減る理由は何か。

① AIが自動的に全てのプログラムを書き換えるから。
② MCPがAIと外部リソース間の「共通インターフェース」として機能するから。
③ データベースの構造自体をAI専用のものに変換するから。
④ MCPを使うとインターネット経由の通信が不要になるから。

【正解： ② 】

解説： MCPは、いわば「AI用のUSB規格」のようなものです。規格さえ合っていれば、接続先がどのAIであっても、同じサーバー（リソース）を利用できるため、開発の効率が劇的に向上します。

6. まとめ

最新のAI活用において「他システムとの連携」は避けて通れないテーマです。「Model Context Protocol (MCP)」という言葉を覚えておくと、AIを業務システムに組み込む際の強力な武器になります！

【DS検定対策】AIの限界はどこだ？「スケーリング則」が示す成長の法則

大規模言語モデル（LLM）がなぜこれほどまでに巨大化しているのか。その理論的根拠となっているのが「スケーリング則」です。性能を決める3つの要素を整理しましょう。

1. 【問題】

大規模言語モデルにおいて、特定の要素を拡大することで、モデルの性能（精度）が予測可能な形で向上し続け、頭打ちにならないという法則を「スケーリング則」と呼びます。この法則において、性能と相関する「3つの要素」として正しい組み合わせはどれでしょうか？

① モデルのパラメータ数、学習データ量、計算資源（計算量）
② データベースの容量、通信速度、ユーザー数
③ CPUのクロック周波数、メモリ容量、ストレージ速度
④ プロンプトの長さ、回答の文字数、学習の回数

2. 【解答】

正解： ① モデルのパラメータ数、学習データ量、計算資源（計算量）

3. 整理：性能を伸ばす「3つのエンジン」

スケーリング則（Scaling Laws）は、2020年にOpenAIの研究者らによって示されました。以下の3つを指数関数的に増やせば、性能は「べき乗則」に従って向上し続けます。

【スケーリングを支える3要素】

1. モデルサイズ（N）

→ パラメータ数（脳の神経細胞の結びつきのようなもの）を増やす。

2. データセットサイズ（D）

→ 学習に読み込ませるテキストデータ（トークン）の量を増やす。

3. 計算量（C）

→ 学習に使用するGPUなどの計算リソースと時間を増やす。

--------------------------

★ ここがポイント！：

単に「データが多い」だけでは不十分で、そのデータを処理できる「巨大なモデル」と、それを動かす「膨大な計算機パワー」がセットになって初めて、精度は上がり続けます。

4. スケーリング則が変えたAI開発

1. 予測可能性: 巨額の投資をして巨大なモデルを作る前に、小さなモデルでの実験から「どのくらい賢くなるか」をあらかじめ予測できるようになりました。
2. 創発への期待: この法則に従ってスケールアップを続けた結果、ある地点で「推論能力」などの高度な知能が突然現れる（創発現象）ことが確認されました。

5. DS検定形式：実戦4択クイズ

問：スケーリング則に関する記述として、誤っているものはどれか。

① モデルを大きくしても、学習データが少なければ性能向上は頭打ちになる。
② 計算資源（GPUなど）を増やすことは、性能向上に寄与する。
③ スケーリング則によれば、性能の向上は対数グラフ上で直線的に表される。
④ スケーリング則は、データの質（クオリティ）に関わらず量さえあれば成立する。

【正解： ④ 】

解説： スケーリング則は「量」の重要性を説いていますが、近年では「質の高いデータ」を学習させる方が効率的に性能が上がることが分かってきました（Chinchilla Scaling Lawsなど）。単にゴミのようなデータ（ノイズ）を増やしても精度は上がりません。

6. まとめ

DS検定において「パラメータ数・データ量・計算量」と「性能の向上」がセットで語られたら「スケーリング則」です。この法則を信じて突き進んだ結果、現在のGPT-4などの驚異的なAIが誕生したという背景を理解しておきましょう！

1. 【 問題 】

2. 【 解答 】

3. 整理：どうやって「感情」を判定するのか？

4. 分析の落とし穴

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【 問題 】

2. 【 解答 】

3. 整理：潜在変数モデルの「2段階プロセス」

4. 代表的な潜在変数モデル

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【 問題 】

2. 【 解答 】

3. 整理：文章を「意味の最小パーツ」に分ける

4. なぜ形態素解析が必要なのか？

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【 問題 】

2. 【 解答 】

3. 整理：AIに「手足」と「目」を与える共通規格

4. MCPでできること

5. エンジニア向け：実戦クイズ

6. まとめ

1. 【 問題 】

2. 【 解答 】

3. 整理：性能を伸ばす「3つのエンジン」

4. スケーリング則が変えたAI開発

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】