【DS検定対策】AIに「対話の作法」を教え込む!教師付きファインチューニング(SFT)
インターネット全体の知識を詰め込んだだけのAIに、「質問されたら、正しい指示に従って回答する」という対話能力を身につけさせるプロセス、それがSFTです。
1. 【 問題 】
大規模言語モデル(LLM)の学習において、事前学習済みのモデルに対して、特定のタスク(要約、翻訳、対話など)や望ましい出力を学習させるため、人間が作成した高品質な「指示と正解のペア(プロンプトとレスポンス)」を用いて追加学習を行う手法を何と呼ぶでしょうか?
① 事前学習(Pre-training)
② 教師付きファインチューニング(SFT)
③ 報酬モデルの学習
④ 知識留(Distillation)
2. 【 解答 】
3. 整理:LLMが「アシスタント」になるまでの2段階
生成AI(ChatGPTなど)が使えるようになるまでには、大きな2つの学習ステップがあります。
【 事前学習とSFTの違い 】
ウェブ上の膨大なテキストを読み込み、「次に来る単語を予測する」能力だけを鍛える。
例:「日本の首都は」→「東京です」だけでなく「どこでしょう?」と勝手に問題を作ってしまうことも。
・ステップ2:SFT(対話の型を教える)
人間が作った「模範解答」を読ませて、指示に従う態度を学ばせる。
データ例:
[指示] 日本の首都を教えてください。
[正解] 日本の首都は東京です。
--------------------------
◎ ポイント:
SFTを行うことで、AIは単なる「文章の続きを予測する機械」から、私たちの「有能なアシスタント(Instruction-tunedモデル)」へと進化します。
4. SFTの特徴と課題
1. 高品質なデータが必要: データの「量」よりも、人間が丁寧に作った「質(正確性や丁寧さ)」がモデルの賢さを左右します。
2. コストの壁: 人間(アノテーター)が大量の指示文と模範解答をゼロから作成するため、人件費と時間が非常にかかります。
5. DS検定形式:実戦4択クイズ
問:大規模言語モデル(LLM)のチューニングにおいて、SFT(教師付きファインチューニング)の次に行われる、人間の好みにさらに近づけるための強化学習手法はどれか。
① RAG ② CNN ③ RLHF ④ BERT
【 正解: ③ 】
解説: SFTで「対話の基本形」を学んだAIに対して、さらに「人間にとってどれがより心地よい回答か」を微調整するのが、以前学んだ「RLHF」です。この順番(事前学習 → SFT → RLHF)はセットで頻出です。
6. まとめ
DS検定において「事前学習済みモデルに足して」「人間が作成した正解応答や指示に従い学習させる」という記述が出たら「教師付きファインチューニング(SFT)」です。チャットAI開発の根幹をなすプロセスとして、確実に理解しておきましょう!