【DS検定対策】少ないデータで過学習を防ぐ!「データ拡張」の手法
AIの学習には大量のデータが必要ですが、現実には十分なデータが集まらないことも。そんな時にデータを賢く「水増し」するのがデータ拡張です。
1. 【 問題 】
機械学習(特に深層学習)において、手元にある限られた教師データを加工・変形(回転、反転、拡大縮小など)することで、実質的にデータの種類や量を増やし、過学習を防ぐ手法を何と呼ぶでしょうか?
① データリーケージ
② データ拡張(データオーグメンテーション)
③ アンサンブル学習
④ 次元圧縮
2. 【 解答 】
3. 整理:画像認識における代表的な「水増し」手法
データ拡張は、元のデータが持つ「答え(ラベル)」を変えずに、見た目だけを変化させるのがポイントです。
【 よく使われる加工パターンの例 】
左右反転(フリップ)、回転、拡大・縮小、トリミング(切り抜き)
・色調変換:
明るさの変更、コントラストの調整、ノイズの追加
--------------------------
★ なぜこれで精度が上がるのか?
AIに「横を向いた猫」や「少し暗い場所にいる猫」の画像も同時に学習させることで、カメラの角度や照明条件が変わっても正しく認識できる「頑健(ロバスト)なモデル」に育つためです。
4. データ拡張の注意点(ドメイン知識の重要性)
何でもかんでも変形すれば良いわけではありません。データの本質(意味)を壊さない加工を選ぶ必要があります。
(例)手書き数字の「6」を180度回転させると「9」になってしまい、正解ラベルが変わってしまうため、数字認識での大幅な回転は不適切となります。
5. DS検定形式:実戦4択クイズ
問:2つの異なる画像(例えば犬と猫)を、ある割合で不透明度を変えて重ね合わせ、ラベルもその割合に応じてブレンド(例:犬0.5、猫0.5)する、ユニークなデータ拡張手法を何と呼ぶか。
① Dropout ② Batch Normalization ③ Mixup ④ Data Cleansing
【 正解: ③ 】
解説: 画像同士を混ぜ合わせるデータ拡張手法を「Mixup」と呼びます。モデルの決定境界が滑らかになり、未知のデータに対して過剰に自信を持った誤判定をするのを防ぐ効果があります。
6. まとめ
DS検定において「データの水増し」「既存のデータを変形して生成」という記述が出たら「データ拡張」です。過学習(過剰適合)を防ぐための強力な前処理テクニックとして、その目的と具体的な加工方法を覚えておきましょう!