DS検定＞1-4-2.言語モデル｜いけいけ機械学習

【DS検定対策】知識の「リサイクル」！転移学習の2大ステップ

ゼロからAIを育てるのは大変。だから「他のタスクで学んだ基礎知識」を流用する。それが転移学習（Transfer Learning）です。

1. 【問題】

転移学習（移転学習）のプロセスに関する次の記述の、[ ] に当てはまる適切な語句の組み合わせはどれでしょうか？

「転移学習において、移転元での最初の学習は [ A ] と呼ばれ、その獲得した知識（重み）をベースに、移転先（特定のタスク）に合わせて追加で行う学習は [ B ] と呼ばれる。」

① A：ファインチューニング B：事前学習
② A：事前学習 B：ファインチューニング
③ A：アンサンブル学習 B：蒸留
④ A：データ拡張 B：正規化

2. 【解答】

正解： ② A：事前学習 B：ファインチューニング

3. 整理：移転元と移転先の「役割分担」

この2つのステップを、人間の学習に例えて整理してみましょう。

【転移学習のステップ】

・移転元： [ 事前学習 ] （義務教育）

　大量の一般的なデータを使って、基礎的な「特徴の掴み方」を幅広く学ぶ。

　（例：画像認識なら、膨大な写真から「輪郭」や「色」の概念を理解する）

・移転先： [ ファインチューニング ] （専門教育）

　事前学習済みのモデル（知識）を引き継ぎ、解きたい特定のタスク用の少量のデータで微調整する。

　（例：医療画像から「特定の病変」を見つける専用AIに仕上げる）

--------------------------

◎ このアプローチの利点：

移転先で用意するデータが少量であっても、事前学習で培った「基礎体力」があるため、高精度なモデルを短時間で開発できます。

4. 覚えておきたい周辺用語

1. 特徴量抽出（Feature Extraction）: 事前学習済みモデルの「重み」を一切変えず（フリーズさせ）、出力層の直前のデータを特徴量として別の機械学習モデル（SVMなど）に投入する手法。ファインチューニングと並ぶ転移学習の代表例です。
2. 負の転移（Negative Transfer）: 移転元のタスクと移転先のタスクが違いすぎる（例：テキスト学習の知識を株価予測に使うなど）ために、かえって精度が下がってしまう現象。

5. DS検定形式：実戦4択クイズ

問：転移学習において、ファインチューニングを行う際、事前学習で得られたモデルの初期層（入力に近い層）のパラメーター（重み）を変更しないように固定する操作を何と呼ぶか。

① ドロップアウト ② 標準化 ③ フリーズ（凍結） ④ 正則化

【正解： ③ 】

解説： 一般的な特徴（エッジや色の変化など）を捉える初期層の知識はそのまま流用した方が効率が良いため、重みを変化させないように「フリーズ」させることがよくあります。

6. まとめ

DS検定において「移転元での学習＝事前学習」「移転先での学習＝ファインチューニング」という組み合わせは、ディープラーニング全般（画像・自然言語処理）を支える大前提の知識です。それぞれの目的の違いをしっかりと頭に入れておきましょう！

【DS検定対策】指示に従う「汎用AI」を作る！インストラクションチューニング

特定の専門分野に特化するのではなく、「人間のあらゆる『指示（命令）』に正しく従う能力」そのものを高める学習手法。それがインストラクションチューニングです。

1. 【問題】

大規模言語モデル（LLM）において、教師付きファインチューニング（SFT）の枠組みを用いながら、特定のタスクやドメインに限定せず、多種多様な「指示（命令）と回答」のペアを学習させることで、未知のタスクに対する汎用的な追従能力を高める手法を何と呼ぶでしょうか？

① コンテキスト学習（In-Context Learning）
② インストラクションチューニング
③ 継続事前学習（Continual Pre-training）
④ 報酬モデル学習

2. 【解答】

正解： ② インストラクションチューニング

3. 整理：「特化型ファインチューニング」との違い

従来のファインチューニングと、インストラクションチューニングでは、目指すゴールが異なります。

【アプローチの比較】

・従来のファインチューニング（特化型）

　特定のタスク（例：感情分析のデータだけ）を大量に学習。

　⇒ 感情分析は超得意になるが、他のことはできなくなる。

・インストラクションチューニング（汎用型）

　「〜を要約して」「〜のコードを書いて」「〜を英語にして」など、異なる形式の指示を数万〜数十万パターン同時に学習。

　⇒ 「指示文の意図を汲み取る力」が鍛えられるため、学習していない新しい指示を出されても柔軟に対応できるようになります。

4. なぜこれが重要なのか？

1. ゼロショット学習能力の向上: 事前にやり方の例（Few-shot）を提示しなくても、プロンプトで「〜してください」と指示するだけで、一発でタスクをこなせる（Zero-shot）ようになります。
2. LLMの製品化に不可欠: ChatGPTやClaudeなどのチャットAIが、ユーザーのどんな無茶振りにもそれっぽく答えてくれるのは、このチューニングが施されているおかげです。

5. DS検定形式：実戦4択クイズ

問：インストラクションチューニングを行う際、モデルに与えるデータセットの構成として最も適切なものはどれか。

① 単語とその意味が対になった辞書データ
② インターネットからスクレイピングした生のWebテキスト
③ 多種多様なタスクに対する「指示文」と「その模範回答」のペア
④ ユーザーのクリック履歴や購入履歴のログ

【正解： ③ 】

解説： 「指示（Instruction）」とその「応答（Response）」のペアが並んだデータセットを使用します。これにより、AIは「命令の型」を学習します。

6. まとめ

DS検定において「教師付きファインチューニングの中で」「特定のタスクに特化せず能力を高める」という表現が出たら「インストラクションチューニング」です。LLMがこれほど便利に使えるようになった歴史的ブレイクスルーの一つとして、しっかり押さえておきましょう！

【DS検定対策】AIに「対話の作法」を教え込む！教師付きファインチューニング（SFT）

インターネット全体の知識を詰め込んだだけのAIに、「質問されたら、正しい指示に従って回答する」という対話能力を身につけさせるプロセス、それがSFTです。

1. 【問題】

大規模言語モデル（LLM）の学習において、事前学習済みのモデルに対して、特定のタスク（要約、翻訳、対話など）や望ましい出力を学習させるため、人間が作成した高品質な「指示と正解のペア（プロンプトとレスポンス）」を用いて追加学習を行う手法を何と呼ぶでしょうか？

① 事前学習（Pre-training）
② 教師付きファインチューニング（SFT）
③ 報酬モデルの学習
④ 知識留（Distillation）

2. 【解答】

正解： ② 教師付きファインチューニング（SFT）

3. 整理：LLMが「アシスタント」になるまでの2段階

生成AI（ChatGPTなど）が使えるようになるまでには、大きな2つの学習ステップがあります。

【事前学習とSFTの違い】

・ステップ1：事前学習（巨大な燃料）

　ウェブ上の膨大なテキストを読み込み、「次に来る単語を予測する」能力だけを鍛える。

　例：「日本の首都は」→「東京です」だけでなく「どこでしょう？」と勝手に問題を作ってしまうことも。

・ステップ2：SFT（対話の型を教える）

　人間が作った「模範解答」を読ませて、指示に従う態度を学ばせる。

　データ例：

　[指示] 日本の首都を教えてください。

　[正解] 日本の首都は東京です。

--------------------------

◎ ポイント：

SFTを行うことで、AIは単なる「文章の続きを予測する機械」から、私たちの「有能なアシスタント（Instruction-tunedモデル）」へと進化します。

4. SFTの特徴と課題

1. 高品質なデータが必要: データの「量」よりも、人間が丁寧に作った「質（正確性や丁寧さ）」がモデルの賢さを左右します。
2. コストの壁: 人間（アノテーター）が大量の指示文と模範解答をゼロから作成するため、人件費と時間が非常にかかります。

5. DS検定形式：実戦4択クイズ

問：大規模言語モデル（LLM）のチューニングにおいて、SFT（教師付きファインチューニング）の次に行われる、人間の好みにさらに近づけるための強化学習手法はどれか。

① RAG ② CNN ③ RLHF ④ BERT

【正解： ③ 】

解説： SFTで「対話の基本形」を学んだAIに対して、さらに「人間にとってどれがより心地よい回答か」を微調整するのが、以前学んだ「RLHF」です。この順番（事前学習 → SFT → RLHF）はセットで頻出です。

6. まとめ

DS検定において「事前学習済みモデルに足して」「人間が作成した正解応答や指示に従い学習させる」という記述が出たら「教師付きファインチューニング（SFT）」です。チャットAI開発の根幹をなすプロセスとして、確実に理解しておきましょう！

【DS検定対策】AIの「知識の源」！コーパス（Corpus）の重要性

AIが言葉を理解し、生成するためには、お手本となる膨大な文章データが必要です。単なるテキストの集まりを超えた「コーパス」の役割を学びましょう。

1. 【問題】

自然言語処理において、言語の法則や構造を抽出するために、実際の言語使用例を大量に集め、検索や分析ができるように構造化したデータベースを何と呼ぶでしょうか？

① 形態素
② コーパス（Corpus）
③ オントロジー
④ シソーラス

2. 【解答】

正解： ② コーパス（Corpus）

3. 整理：ただの「文章」と「コーパス」の違い

インターネット上の文章をただ集めただけでは、質の高いAIは育ちません。コーパスには「構造化」という重要な工程が含まれます。

【コーパスを構成する要素】

[ 1. 生テキスト（Raw Text） ]

小説、ニュース、SNS、論文など、実際に使われている文章。

[ 2. アノテーション（メタデータ） ]

★ ここが重要！

単語ごとに「品詞情報」を付与したり、文の「感情スコア」を付けたりして、コンピュータが処理しやすい情報を付け加えること。

--------------------------

◎ 代表的なコーパス：

・現代日本語書き言葉均衡コーパス（BCCWJ）

・Wikipediaのダンプデータ

・青空文庫のテキストデータ

4. コーパスの活用シーン

1. 辞書・文法作成: 言葉の使われ方を統計的に分析し、より自然な文法モデルを作ります。
2. LLMの学習: ChatGPTなどの大規模言語モデルも、Web上の巨大なコーパスを学習することで言語能力を獲得しています。
3. 翻訳精度向上: 対訳コーパス（日本語と英語が対になったデータ）により、翻訳AIを強化します。

5. DS検定形式：実戦4択クイズ

問：コーパスに品詞情報などの付随情報を追加する作業を一般に何と呼ぶか。

① クレンジング ② アノテーション ③ スクレイピング ④ トークン化

【正解： ② 】

解説： データに対して「ラベル」や「注釈」を付ける作業をアノテーションと呼びます。コーパスの価値は、このアノテーションの質と量で決まると言っても過言ではありません。

6. まとめ

DS検定において「言語を構造化したデータベース」「大量の使用例」という表現が出たら「コーパス」です。データベースエンジニアとしても、非構造化データを構造化データに変える「情報の宝庫」として覚えておきたい用語ですね！

【DS検定対策】言葉の「つながり」を可視化！共起分析とネットワーク図

特定の単語が「どの単語と一緒に使われやすいか」を分析することで、文章の背後にあるテーマや構造を浮き彫りにするのが共起分析です。

1. 【問題】

テキストマイニングにおいて、一つの文章や文の中に、複数の特定の単語が同時に出現する状態を「共起」と呼びます。この共起関係を統計的に分析し、図（ネットワーク図）などで可視化する手法を何と呼ぶでしょうか？

① センチメント分析
② 共起分析
③ 主成分分析
④ 対応分析（コレスポンデンス分析）

2. 【解答】

正解： ② 共起分析

3. 整理：「セットで現れる」ことに意味がある

単語の出現回数だけでは、「何について語られているか」の深い文脈は分かりません。共起分析をすることで、言葉のネットワークが見えてきます。

【共起分析の可視化：共起ネットワーク】

[ 図の読み方 ]

・ノード（円）：単語を表す。大きいほど出現頻度が高い。

・エッジ（線）：共起関係を表す。太いほど「セット」で使われる度合いが強い。

（例：スマートフォンのレビュー分析）

「バッテリー」──「持ち」：電池の寿命に関する話題

「カメラ」──「暗所」：夜景撮影に関する話題

--------------------------

◎ 活用例：

・アンケート自由記述から「不満の構造」を特定する。

・ニュース記事からトレンドワードの関連性を探る。

4. 共起の強さを測る指標

単に同時に出た回数だけでなく、以下の指標がよく使われます。
1. Jaccard（ジャカード）係数: 2つの単語がどれだけ「いつも一緒」にいるかの割合。DS検定でもよく問われる指標です。
2. Dice係数 / Simpson係数: 共起の度合いを測るための統計的指標。

5. DS検定形式：実戦4択クイズ

問：共起分析の結果を可視化した「共起ネットワーク図」において、単語間の結びつきの強さを表す線のことを何と呼ぶか。

① ノード ② セントロイド ③ エッジ ④ クラスタ

【正解： ③ 】

解説： 円（点）をノード、それらを結ぶ線をエッジと呼びます。共起分析では、このエッジが太いほど、その単語ペアに強い関連性があることを示します。

6. まとめ

DS検定において「単語の同時出現」「ネットワーク図による可視化」というキーワードが出たら「共起分析」です。頻度だけでは見落としてしまう「文脈」を捉えるための強力なツールとして覚えておきましょう！

1. 【 問題 】

2. 【 解答 】

3. 整理：移転元と移転先の「役割分担」

4. 覚えておきたい周辺用語

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【 問題 】

2. 【 解答 】

3. 整理：「特化型ファインチューニング」との違い

4. なぜこれが重要なのか？

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【 問題 】

2. 【 解答 】

3. 整理：LLMが「アシスタント」になるまでの2段階

4. SFTの特徴と課題

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【 問題 】

2. 【 解答 】

3. 整理：ただの「文章」と「コーパス」の違い

4. コーパスの活用シーン

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【 問題 】

2. 【 解答 】

3. 整理：「セットで現れる」ことに意味がある

4. 共起の強さを測る指標

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】