【DS検定対策】まずは手元のデータで評価！「訓練誤差」の意味と付き合い方

AIモデルを作ったら、まずは手元にあるデータを使ってどれくらい予測が当たっているかを計算します。その時に算出されるのが「訓練誤差」です。

1. 【問題】

機械学習のモデル評価において、「モデルの学習（訓練）に用いたデータそのもの」をモデルに入力した際に生じる、予測値と正解データとの間の誤差のことを何と呼ぶでしょうか？

① 汎化誤差（はんかごさ）
② 訓練誤差（学習誤差）
③ 評価誤差（テスト誤差）
④ 残差（ざんさ）

2. 【解答】

正解： ② 訓練誤差（学習誤差）

3. 整理：訓練誤差と「過学習（オーバーフィッティング）」の関係

訓練誤差は、モデルが手元のデータをどれくらい「カンペキに暗記できたか」を表す指標です。そのため、以下のような落とし穴が存在します。

【訓練誤差のキャラクター】

・学習が進むとどうなる？

AIが手元のデータをどんどん学習していくと、訓練誤差は基本的にゼロに向かって下がり続けます。

・「訓練誤差＝0」は本当にハッピー？

いいえ！手元のデータを完璧に覚え込みすぎた結果、データに含まれる「ノイズ（偶然のブレ）」まで学習してしまい、いざ本番環境で「新しい未知のデータ」を入力したときに全く予測が当たらなくなる現象が起きます。これを過学習（オーバーフィッティング）と呼びます。

4. 対比して覚えたい「汎化誤差」

訓練誤差の対義語として必ず出題されるのが「汎化誤差（はんかごさ）」です。
これは、学習には一切使っていない「未知のデータ」に対する予測誤差のことです。データサイエンティストが本当に目指すべきゴールは、訓練誤差をゼロにすることではなく、この「汎化誤差を最小にすること」です。

5. DS検定形式：実戦4択クイズ

問：学習を繰り返すうちに、「訓練誤差」は下がり続けているにもかかわらず、「汎化誤差（テスト誤差）」が途中から上昇し始めてしまった。この状態を説明する言葉として最も適切なものはどれか。

① アンダーフィッティング（学習不足） ② オーバーフィッティング（過学習） ③ 勾配消失 ④ 負の転移

【正解： ② 】

解説： まさに過学習が起きている瞬間の特徴です。この現象を防ぐために、あらかじめデータを「訓練用」と「テスト用」に分割して別々に誤差を監視する「交差検証（クロスバリデーション）」などの技術が使われます。

6. まとめ

DS検定において「学習時の訓練データと正解データの誤差」という記述が出たら、シンプルに「訓練誤差」です。これ単体が低ければ良いというわけではなく、未知のデータに対する「汎化誤差」とセットで比較・評価するものだという大原則を押さえておきましょう！