忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】少ないデータで過学習を防ぐ!「データ拡張」の手法

AIの学習には大量のデータが必要ですが、現実には十分なデータが集まらないことも。そんな時にデータを賢く「水増し」するのがデータ拡張です。

1. 【 問題 】

機械学習(特に深層学習)において、手元にある限られた教師データを加工・変形(回転、反転、拡大縮小など)することで、実質的にデータの種類や量を増やし、過学習を防ぐ手法を何と呼ぶでしょうか?

① データリーケージ
② データ拡張(データオーグメンテーション)
③ アンサンブル学習
④ 次元圧縮


2. 【 解答 】

正解: ② データ拡張(データオーグメンテーション)

3. 整理:画像認識における代表的な「水増し」手法

データ拡張は、元のデータが持つ「答え(ラベル)」を変えずに、見た目だけを変化させるのがポイントです。

【 よく使われる加工パターンの例 】

幾何学的変換
 左右反転(フリップ)、回転、拡大・縮小、トリミング(切り抜き)

色調変換
 明るさの変更、コントラストの調整、ノイズの追加

--------------------------

なぜこれで精度が上がるのか?
AIに「横を向いた猫」や「少し暗い場所にいる猫」の画像も同時に学習させることで、カメラの角度や照明条件が変わっても正しく認識できる「頑健(ロバスト)なモデル」に育つためです。

4. データ拡張の注意点(ドメイン知識の重要性)

何でもかんでも変形すれば良いわけではありません。データの本質(意味)を壊さない加工を選ぶ必要があります。
(例)手書き数字の「6」を180度回転させると「9」になってしまい、正解ラベルが変わってしまうため、数字認識での大幅な回転は不適切となります。


5. DS検定形式:実戦4択クイズ

問:2つの異なる画像(例えば犬と猫)を、ある割合で不透明度を変えて重ね合わせ、ラベルもその割合に応じてブレンド(例:犬0.5、猫0.5)する、ユニークなデータ拡張手法を何と呼ぶか。

① Dropout   ② Batch Normalization   ③ Mixup   ④ Data Cleansing

【 正解: ③ 】

解説: 画像同士を混ぜ合わせるデータ拡張手法を「Mixup」と呼びます。モデルの決定境界が滑らかになり、未知のデータに対して過剰に自信を持った誤判定をするのを防ぐ効果があります。


6. まとめ

DS検定において「データの水増し」「既存のデータを変形して生成」という記述が出たら「データ拡張」です。過学習(過剰適合)を防ぐための強力な前処理テクニックとして、その目的と具体的な加工方法を覚えておきましょう!

PR

【DS検定対策】AIの表現力を高める工夫!「派生変数」の作り方

元のデータをそのままAIに投入するのではなく、組み合わせて「新しい意味を持つ変数」を作る。これが特徴量エンジニアリングの基本である派生変数です。

1. 【 問題 】

データ分析の前処理(特徴量エンジニアリング)において、既存の複数の変数(特徴量)を組み合わせたり、計算処理を行ったりすることで新しく導出される変数のことを何と呼ぶでしょうか?

① 目的変数
② 派生変数(派生特徴量)
③ ダミー変数
④ 潜在変数


2. 【 解答 】

正解: ② 派生変数(派生特徴量)

3. 整理:なぜ「計算してわざわざ増やす」のか?

元のデータ(生データ)だけでは、AIがその本質的な関係性を学習するのに膨大な時間がかかる(あるいは学習できない)ことがあります。あらかじめ人間が計算してあげることで、モデルの予測精度が大きく向上します。

【 よくある派生変数の具体例 】

「身長」と「体重」から導出
 → BMI = 体重(kg) ÷ 身長(m)の2乗

「売上額」と「客数」から導出
 → 客単価 = 売上額 ÷ 客数

「生年月日」から導出
 → 現在の年齢、生まれた曜日、星座など

--------------------------

ポイント: ドメイン知識(業務知識)を活かして、「どんな派生変数を作るか」がデータサイエンティストの腕の見せ所になります。

4. 派生変数を作る際の注意点

1. 多重共線性(マルチコ): 元の変数と派生変数の間で強い相関が生まれるため、線形回帰など一部のモデルでは計算が不安定になる原因になります。
2. データリーケージ(情報の漏洩): 未来のデータを使って派生変数を作ってしまうと、予測モデルが不正解をカンニングした状態になってしまうため注意が必要です。


5. DS検定形式:実戦4択クイズ

問:派生変数の一種で、カテゴリ変数(「東京」「大阪」など)を機械学習モデルが処理できるように、0と1だけで表した変数のことを何と呼ぶか。

① 目的変数   ② 説明変数   ③ ダミー変数   ④ 連続変数

【 正解: ③ 】

解説: カテゴリをフラグ化(One-Hotエンコーディング)したものは「ダミー変数」と呼ばれ、これも立派な派生変数の一種です。


6. まとめ

DS検定において「他の変数から導出できる変数」「組み合わせて作る特徴量」という記述が出たら「派生変数」です。データの組み合わせによって、AIに新しい視点を提供する技術として押さえておきましょう!

【DS検定対策】データ解析の第一歩:探索的データ解析(EDA)

データ分析では、いきなり高度な予測モデルを作る前に、データそのものの姿を捉える工程が欠かせません。今回はその基本用語をクイズで学びましょう。

【問題】

問:データ分析において、分析者が事前に特定の仮説を立てることなく、データそのものを観察・可視化することで、その背後にある構造やパターン、知識を抽出するアプローチを何と呼ぶか。

① 探索的データ解析
② 仮説検証型解析
③ アノテーション
④ データの正規化


【正解】

① 探索的データ解析


【解説】

探索的データ解析(EDA:Exploratory Data Analysis)とは、統計学者のジョン・テューキーが提唱した手法です。先入観(仮説)を持たずにデータを要約・可視化し、異常値の発見や新しい仮説の構築につなげる非常に重要な工程です。


■ 図解イメージ

[仮説検証型]:仮説を立てる → 実験 → 検証(Yes/No)
[探索的解析]:データを見る → 特徴を発見 → 仮説を導き出す


■ 選択肢の用語解説

アノテーション:画像等に「正解ラベル」を付けるAI学習の準備作業。
データの正規化:単位や桁が違うデータを一定の範囲に揃える加工手法。


まとめ:

「事前の仮説なしにデータから知識を抽出する = 探索的データ解析(EDA)」。この定義をしっかり押さえておきましょう!



【DS検定対策】データの種類をマスター!「パネルデータ」は多次元の視点がコツ

データ分析において、データの「持ち方」を理解することは適切な手法を選ぶ第一歩です。今回は、クロスセクションと時系列を掛け合わせた「パネルデータ」の正体をわかりやすく解説します。

1. 問題:パネルデータの特徴

【 問題 】 統計学における「パネルデータ」の説明として、最も適切なものはどれでしょうか?

① ある1時点において、複数の調査対象(世帯や企業など)を観測したデータ  
② 1つの調査対象について、時間の経過とともに連続的に記録したデータ  
③ 同一の複数の調査対象(個体)を、複数の時点にわたって追跡して記録したデータ  
④ インターネット上の不特定多数から、ランダムに収集された大規模なデータ

2. 整理:データの3つのカタチ

パネルデータは、いわば「クロスセクション(横)」と「時系列(縦)」のハイブリッドです。

【 世界の切り出し 】

[ 1. クロスセクションデータ ]
ある瞬間の「スナップショット」。
例:2026年4月の「世帯A、世帯B、世帯C」の家計状況

[ 2. 時系列データ ]
ある対象の「履歴」。
例:世帯Aの「1月、2月、3月……」の家計の推移

[ 3. パネルデータ(今回のターゲット) ]
同じ対象をずっと追いかける「追跡調査」。
例:世帯A、世帯B、世帯Cそれぞれの「1月、2月、3月……」の家計データ

結論:個体差と時間変化を同時に分析できる

--------------------------

具体例: 家計パネル調査、経済統計の企業パネルなど

3. 解説プロセス

1. 次元を確認する: 「どの世帯が(個体識別)」と「いつ(時間軸)」の両方のラベルが付いているかを確認します。
2. 強みを理解する: 特定の世帯が時間の経過でどう変化したか(経年変化)と、世帯ごとの違い(個体差)を切り分けて分析できるのが最大の特徴です。
3. 実用上の意味: 政策の効果測定などで、「同じ人たちが施策の前後でどう変わったか」を正確に把握するために非常に重宝されます。


4. DS検定形式:実戦4択クイズ

問:パネルデータを用いることで、クロスセクションデータのみの分析では困難な「個体固有の観察不可能な要因」を制御できるモデルを何と呼ぶか。

① 固定効果モデル   ② ロジスティック回帰モデル   ③ 決定木モデル   ④ クラスタリングモデル

【 正解: ① 】

解説: パネルデータ分析でよく使われる「固定効果モデル」は、各個体が持つ変化しない特性(性格や地域性など)を差し引いて、純粋な変数の影響を測定するために用いられます。これはパネルデータならではの強力な分析手法です。


5. まとめ

「クロスセクション」と「時系列」の両方の性質を持つパネルデータは、情報の密度が非常に高いデータです。DS検定では、それぞれのデータの定義を混同しないように整理しておくことが、確実にスコアを伸ばすポイントになります!


【DS検定対策】精度の敵を知る!「標本誤差」と「非標本誤差」の見極め方

データから全体(母集団)を推測するとき、必ず「ズレ」が生じます。今回は、そのズレの正体である「標本誤差」と、それ以外の厄介な「非標本誤差」の違いを解説します。

1. 問題:標本誤差の説明として正しいもの

【 問題 】 統計調査における「標本誤差」に関する記述として、最も適切なものはどれでしょうか?

① 調査対象者が回答を拒否したり、嘘をついたりすることで生じる誤差  
② サンプルサイズ(標本の大きさ)を大きくしても、決して小さくならない誤差  
③ 母集団全体を調べず、その一部を抜き出して調べること自体に起因する誤差  
④ データの入力ミスや集計ソフトのバグによって生じる計算上の誤差

【 正解: ③ 】

2. 整理:2つの誤差の世界

調査に伴う誤差は、大きく分けて「抽出によるもの」か「それ以外か」で分類されます。

【 世界の切り出し 】

[ 1. 標本誤差(サンプリング・エラー) ]
・原因:「全員を調べていないこと」そのもの。
・特徴:サンプルサイズを大きくすれば 小さくなる
・例:たまたま偏った人たちを引いてしまった。

[ 2. 非標本誤差(ノン・サンプリング・エラー) ]
・原因:抽出以外すべて。
・特徴:サンプルサイズを大きくしても 小さくならない(むしろ増えることもある)
・例:回答拒否、質問の聞き間違い、入力ミス、測定器の故障。

結論:標本誤差は「計算」で制御できるが、非標本誤差は「運用」で防ぐしかない

--------------------------

教訓:全数調査(センサス)でも、非標本誤差は発生する

3. 解説プロセス

1. 原因を特定する: 「一部を抜き出したこと」が原因であれば標本誤差です。それ以外(ミスや拒否)はすべて非標本誤差に分類されます。
2. 対策を考える: 標本誤差はサンプル数を増やすことで統計的に減らせますが、非標本誤差は調査の設計(質問の仕方など)を見直さない限り減りません。
3. 答えを出す: 選択肢の中で、抽出に起因するものは です。


4. DS検定形式:実戦4択クイズ

問:アンケート調査において、特定の層(例:若年層)が回答を拒否する傾向にあるために生じるバイアスを何と呼ぶか。

① 標本誤差   ② 無回答誤差   ③ 測定誤差   ④ 標本抽出枠誤差

【 正解: ② 】

解説: これは非標本誤差の一種である「無回答誤差」です。回答が得られた人たちだけで分析すると、回答しなかった層の意見が反映されず、結果が歪んでしまいます。これはサンプルサイズを増やしても解決しない問題です。


5. まとめ

「標本誤差」は確率的なゆらぎであり、コントロールが可能です。一方、ミスや偏りによる「非標本誤差」はデータの質を根本から損ないます。DS検定でも、それぞれの誤差が「なぜ起きるのか」「どうすれば減るのか」を区別して理解しておきましょう!