【DS検定対策】AIに「対話の作法」を教え込む！教師付きファインチューニング（SFT）

インターネット全体の知識を詰め込んだだけのAIに、「質問されたら、正しい指示に従って回答する」という対話能力を身につけさせるプロセス、それがSFTです。

1. 【問題】

大規模言語モデル（LLM）の学習において、事前学習済みのモデルに対して、特定のタスク（要約、翻訳、対話など）や望ましい出力を学習させるため、人間が作成した高品質な「指示と正解のペア（プロンプトとレスポンス）」を用いて追加学習を行う手法を何と呼ぶでしょうか？

① 事前学習（Pre-training）
② 教師付きファインチューニング（SFT）
③ 報酬モデルの学習
④ 知識留（Distillation）

2. 【解答】

正解： ② 教師付きファインチューニング（SFT）

3. 整理：LLMが「アシスタント」になるまでの2段階

生成AI（ChatGPTなど）が使えるようになるまでには、大きな2つの学習ステップがあります。

【事前学習とSFTの違い】

・ステップ1：事前学習（巨大な燃料）

　ウェブ上の膨大なテキストを読み込み、「次に来る単語を予測する」能力だけを鍛える。

　例：「日本の首都は」→「東京です」だけでなく「どこでしょう？」と勝手に問題を作ってしまうことも。

・ステップ2：SFT（対話の型を教える）

　人間が作った「模範解答」を読ませて、指示に従う態度を学ばせる。

　データ例：

　[指示] 日本の首都を教えてください。

　[正解] 日本の首都は東京です。

--------------------------

◎ ポイント：

SFTを行うことで、AIは単なる「文章の続きを予測する機械」から、私たちの「有能なアシスタント（Instruction-tunedモデル）」へと進化します。

4. SFTの特徴と課題

1. 高品質なデータが必要: データの「量」よりも、人間が丁寧に作った「質（正確性や丁寧さ）」がモデルの賢さを左右します。
2. コストの壁: 人間（アノテーター）が大量の指示文と模範解答をゼロから作成するため、人件費と時間が非常にかかります。

5. DS検定形式：実戦4択クイズ

問：大規模言語モデル（LLM）のチューニングにおいて、SFT（教師付きファインチューニング）の次に行われる、人間の好みにさらに近づけるための強化学習手法はどれか。

① RAG ② CNN ③ RLHF ④ BERT

【正解： ③ 】

解説： SFTで「対話の基本形」を学んだAIに対して、さらに「人間にとってどれがより心地よい回答か」を微調整するのが、以前学んだ「RLHF」です。この順番（事前学習 → SFT → RLHF）はセットで頻出です。

6. まとめ

DS検定において「事前学習済みモデルに足して」「人間が作成した正解応答や指示に従い学習させる」という記述が出たら「教師付きファインチューニング（SFT）」です。チャットAI開発の根幹をなすプロセスとして、確実に理解しておきましょう！