忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】AIに「対話の作法」を教え込む!教師付きファインチューニング(SFT)

インターネット全体の知識を詰め込んだだけのAIに、「質問されたら、正しい指示に従って回答する」という対話能力を身につけさせるプロセス、それがSFTです。

1. 【 問題 】

大規模言語モデル(LLM)の学習において、事前学習済みのモデルに対して、特定のタスク(要約、翻訳、対話など)や望ましい出力を学習させるため、人間が作成した高品質な「指示と正解のペア(プロンプトとレスポンス)」を用いて追加学習を行う手法を何と呼ぶでしょうか?

① 事前学習(Pre-training)
② 教師付きファインチューニング(SFT)
③ 報酬モデルの学習
④ 知識留(Distillation)


2. 【 解答 】

正解: ② 教師付きファインチューニング(SFT)

3. 整理:LLMが「アシスタント」になるまでの2段階

生成AI(ChatGPTなど)が使えるようになるまでには、大きな2つの学習ステップがあります。

【 事前学習とSFTの違い 】

ステップ1:事前学習(巨大な燃料)
 ウェブ上の膨大なテキストを読み込み、「次に来る単語を予測する」能力だけを鍛える。
 例:「日本の首都は」→「東京です」だけでなく「どこでしょう?」と勝手に問題を作ってしまうことも。

ステップ2:SFT(対話の型を教える)
 人間が作った「模範解答」を読ませて、指示に従う態度を学ばせる。
 データ例:
 [指示] 日本の首都を教えてください。
 [正解] 日本の首都は東京です。

--------------------------

ポイント:
SFTを行うことで、AIは単なる「文章の続きを予測する機械」から、私たちの「有能なアシスタント(Instruction-tunedモデル)」へと進化します。

4. SFTの特徴と課題

1. 高品質なデータが必要: データの「量」よりも、人間が丁寧に作った「質(正確性や丁寧さ)」がモデルの賢さを左右します。
2. コストの壁: 人間(アノテーター)が大量の指示文と模範解答をゼロから作成するため、人件費と時間が非常にかかります。


5. DS検定形式:実戦4択クイズ

問:大規模言語モデル(LLM)のチューニングにおいて、SFT(教師付きファインチューニング)の次に行われる、人間の好みにさらに近づけるための強化学習手法はどれか。

① RAG   ② CNN   ③ RLHF   ④ BERT

【 正解: ③ 】

解説: SFTで「対話の基本形」を学んだAIに対して、さらに「人間にとってどれがより心地よい回答か」を微調整するのが、以前学んだ「RLHF」です。この順番(事前学習 → SFT → RLHF)はセットで頻出です。


6. まとめ

DS検定において「事前学習済みモデルに足して」「人間が作成した正解応答や指示に従い学習させる」という記述が出たら「教師付きファインチューニング(SFT)」です。チャットAI開発の根幹をなすプロセスとして、確実に理解しておきましょう!

PR