忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】まずは手元のデータで評価!「訓練誤差」の意味と付き合い方

AIモデルを作ったら、まずは手元にあるデータを使ってどれくらい予測が当たっているかを計算します。その時に算出されるのが「訓練誤差」です。

1. 【 問題 】

機械学習のモデル評価において、「モデルの学習(訓練)に用いたデータそのもの」をモデルに入力した際に生じる、予測値と正解データとの間の誤差のことを何と呼ぶでしょうか?

① 汎化誤差(はんかごさ)
② 訓練誤差(学習誤差)
③ 評価誤差(テスト誤差)
④ 残差(ざんさ)


2. 【 解答 】

正解: ② 訓練誤差(学習誤差)

3. 整理:訓練誤差と「過学習(オーバーフィッティング)」の関係

訓練誤差は、モデルが手元のデータをどれくらい「カンペキに暗記できたか」を表す指標です。そのため、以下のような落とし穴が存在します。

【 訓練誤差のキャラクター 】

学習が進むとどうなる?
AIが手元のデータをどんどん学習していくと、訓練誤差は基本的にゼロに向かって下がり続けます

「訓練誤差=0」は本当にハッピー?
いいえ!手元のデータを完璧に覚え込みすぎた結果、データに含まれる「ノイズ(偶然のブレ)」まで学習してしまい、いざ本番環境で「新しい未知のデータ」を入力したときに全く予測が当たらなくなる現象が起きます。これを過学習(オーバーフィッティング)と呼びます。

4. 対比して覚えたい「汎化誤差」

訓練誤差の対義語として必ず出題されるのが「汎化誤差(はんかごさ)」です。
これは、学習には一切使っていない「未知のデータ」に対する予測誤差のことです。データサイエンティストが本当に目指すべきゴールは、訓練誤差をゼロにすることではなく、この「汎化誤差を最小にすること」です。


5. DS検定形式:実戦4択クイズ

問:学習を繰り返すうちに、「訓練誤差」は下がり続けているにもかかわらず、「汎化誤差(テスト誤差)」が途中から上昇し始めてしまった。この状態を説明する言葉として最も適切なものはどれか。

① アンダーフィッティング(学習不足)   ② オーバーフィッティング(過学習)   ③ 勾配消失   ④ 負の転移

【 正解: ② 】

解説: まさに過学習が起きている瞬間の特徴です。この現象を防ぐために、あらかじめデータを「訓練用」と「テスト用」に分割して別々に誤差を監視する「交差検証(クロスバリデーション)」などの技術が使われます。


6. まとめ

DS検定において「学習時の訓練データと正解データの誤差」という記述が出たら、シンプルに「訓練誤差」です。これ単体が低ければ良いというわけではなく、未知のデータに対する「汎化誤差」とセットで比較・評価するものだという大原則を押さえておきましょう!


PR