【DS検定対策】AIの「知能」をゼロから作る！事前学習の本質とは？

GPTなどの大規模言語モデル（LLM）が、なぜ多様なタスクをこなせるのか。その答えは、特定の用途に絞る前に行われる「事前学習」という工程に隠されています。

1. 【問題】

言語モデルにおける「事前学習（Pre-training）」の説明として、最も適切なものはどれでしょうか？

① 専門的なデータを用いて、特定のタスク（翻訳や要約など）に特化させること
② 膨大なラベルなしデータを用いて、言語の構造や一般的な知識をゼロから獲得させること
③ 学習済みモデルを圧縮して、スマートフォンのような小型端末で動くようにすること
④ 人間のフィードバックに基づき、AIの回答をより安全で好ましいものに調整すること

2. 【解答】

正解： ② 膨大なラベルなしデータを用いて、言語の構造や一般的な知識をゼロから獲得させること

3. 整理：事前学習の役割と仕組み

事前学習は、モデルが「言葉の並び順」や「概念のつながり」を自ら発見し、知能の土台（基盤モデル）を作るプロセスです。

【事前学習のメカニズム】

[ 1. データの性質 ]

インターネット上のテキストや書籍など、正解ラベルのない「生のデータ」をそのまま利用します。

[ 2. 学習タスク（次単語予測） ]

★ ここが本質！

「今日はとても[ ]が良い」の[ ]に入る単語を、膨大なパターンから予測。これを繰り返すことで、文法や知識を身につけます。

[ 3. 到達点 ]

特定の目的は持たないものの、あらゆる質問に応用できる「汎用的な能力」が備わります。

--------------------------

◎ 重要： この段階で出来上がったものを「基盤モデル（Foundation Model）」と呼びます。

4. なぜ「事前」に学習するのか？

1. 知識の共有: 言語の基本を一度マスターしておけば、後の専門学習（ファインチューニング）が非常に効率的になります。
2. データの有効活用: ラベル付きデータは貴重ですが、ラベルなしデータはネット上に無限にあるため、大規模なスケーリングが可能です。
3. ゼロショット能力: 事前学習だけで、一度も解いたことがない問題に対してある程度の回答を出す能力が生まれます。

5. DS検定形式：実戦4択クイズ

問：事前学習において、人間が正解を与えなくてもデータ自身から学習信号を作り出す手法を何と呼ぶか。

① 教師あり学習 ② 自己教師あり学習 ③ 転移学習 ④ 蒸留

【正解： ② 】

解説： 事前学習の多くは、データの一部を隠してそれを予測させる「自己教師あり学習（Self-supervised Learning）」という手法で行われます。これにより、人間が手作業でラベルを付ける手間を省き、巨大なモデルの構築が可能になりました。

6. まとめ

DS検定において「事前学習」は、AIが汎用的な知能を得るための「第一段階」として定義されます。「ゼロから学ぶ」「ラベルなしデータの活用」「自己教師あり学習」というキーワードをセットで押さえておきましょう！