【DS検定対策】まずは手元のデータで評価!「訓練誤差」の意味と付き合い方
AIモデルを作ったら、まずは手元にあるデータを使ってどれくらい予測が当たっているかを計算します。その時に算出されるのが「訓練誤差」です。
1. 【 問題 】
機械学習のモデル評価において、「モデルの学習(訓練)に用いたデータそのもの」をモデルに入力した際に生じる、予測値と正解データとの間の誤差のことを何と呼ぶでしょうか?
① 汎化誤差(はんかごさ)
② 訓練誤差(学習誤差)
③ 評価誤差(テスト誤差)
④ 残差(ざんさ)
2. 【 解答 】
3. 整理:訓練誤差と「過学習(オーバーフィッティング)」の関係
訓練誤差は、モデルが手元のデータをどれくらい「カンペキに暗記できたか」を表す指標です。そのため、以下のような落とし穴が存在します。
【 訓練誤差のキャラクター 】
AIが手元のデータをどんどん学習していくと、訓練誤差は基本的にゼロに向かって下がり続けます。
・「訓練誤差=0」は本当にハッピー?
いいえ!手元のデータを完璧に覚え込みすぎた結果、データに含まれる「ノイズ(偶然のブレ)」まで学習してしまい、いざ本番環境で「新しい未知のデータ」を入力したときに全く予測が当たらなくなる現象が起きます。これを過学習(オーバーフィッティング)と呼びます。
4. 対比して覚えたい「汎化誤差」
訓練誤差の対義語として必ず出題されるのが「汎化誤差(はんかごさ)」です。
これは、学習には一切使っていない「未知のデータ」に対する予測誤差のことです。データサイエンティストが本当に目指すべきゴールは、訓練誤差をゼロにすることではなく、この「汎化誤差を最小にすること」です。
5. DS検定形式:実戦4択クイズ
問:学習を繰り返すうちに、「訓練誤差」は下がり続けているにもかかわらず、「汎化誤差(テスト誤差)」が途中から上昇し始めてしまった。この状態を説明する言葉として最も適切なものはどれか。
① アンダーフィッティング(学習不足) ② オーバーフィッティング(過学習) ③ 勾配消失 ④ 負の転移
【 正解: ② 】
解説: まさに過学習が起きている瞬間の特徴です。この現象を防ぐために、あらかじめデータを「訓練用」と「テスト用」に分割して別々に誤差を監視する「交差検証(クロスバリデーション)」などの技術が使われます。
6. まとめ
DS検定において「学習時の訓練データと正解データの誤差」という記述が出たら、シンプルに「訓練誤差」です。これ単体が低ければ良いというわけではなく、未知のデータに対する「汎化誤差」とセットで比較・評価するものだという大原則を押さえておきましょう!