【DS検定対策】AIの表現力を高める工夫!「派生変数」の作り方
元のデータをそのままAIに投入するのではなく、組み合わせて「新しい意味を持つ変数」を作る。これが特徴量エンジニアリングの基本である派生変数です。
1. 【 問題 】
データ分析の前処理(特徴量エンジニアリング)において、既存の複数の変数(特徴量)を組み合わせたり、計算処理を行ったりすることで新しく導出される変数のことを何と呼ぶでしょうか?
① 目的変数
② 派生変数(派生特徴量)
③ ダミー変数
④ 潜在変数
2. 【 解答 】
正解: ② 派生変数(派生特徴量)
3. 整理:なぜ「計算してわざわざ増やす」のか?
元のデータ(生データ)だけでは、AIがその本質的な関係性を学習するのに膨大な時間がかかる(あるいは学習できない)ことがあります。あらかじめ人間が計算してあげることで、モデルの予測精度が大きく向上します。
【 よくある派生変数の具体例 】
・「身長」と「体重」から導出
→ BMI = 体重(kg) ÷ 身長(m)の2乗
・「売上額」と「客数」から導出
→ 客単価 = 売上額 ÷ 客数
・「生年月日」から導出
→ 現在の年齢、生まれた曜日、星座など
--------------------------
◎ ポイント: ドメイン知識(業務知識)を活かして、「どんな派生変数を作るか」がデータサイエンティストの腕の見せ所になります。
→ BMI = 体重(kg) ÷ 身長(m)の2乗
・「売上額」と「客数」から導出
→ 客単価 = 売上額 ÷ 客数
・「生年月日」から導出
→ 現在の年齢、生まれた曜日、星座など
--------------------------
◎ ポイント: ドメイン知識(業務知識)を活かして、「どんな派生変数を作るか」がデータサイエンティストの腕の見せ所になります。
4. 派生変数を作る際の注意点
1. 多重共線性(マルチコ): 元の変数と派生変数の間で強い相関が生まれるため、線形回帰など一部のモデルでは計算が不安定になる原因になります。
2. データリーケージ(情報の漏洩): 未来のデータを使って派生変数を作ってしまうと、予測モデルが不正解をカンニングした状態になってしまうため注意が必要です。
5. DS検定形式:実戦4択クイズ
問:派生変数の一種で、カテゴリ変数(「東京」「大阪」など)を機械学習モデルが処理できるように、0と1だけで表した変数のことを何と呼ぶか。
① 目的変数 ② 説明変数 ③ ダミー変数 ④ 連続変数
【 正解: ③ 】
解説: カテゴリをフラグ化(One-Hotエンコーディング)したものは「ダミー変数」と呼ばれ、これも立派な派生変数の一種です。
6. まとめ
DS検定において「他の変数から導出できる変数」「組み合わせて作る特徴量」という記述が出たら「派生変数」です。データの組み合わせによって、AIに新しい視点を提供する技術として押さえておきましょう!
PR