【DS検定対策】データ加工の基本:派生変数の定義と具体例
データ分析において、既存のデータセットには直接存在しない項目を、既存のデータから作り出す工程は非常に重要です。
【問題】
問:データ分析において、元のデータセットには直接存在しないが、既存の変数を組み合わせて計算や加工を施すことで新しく作成した変数のことを何と呼ぶか。
① 目的変数② 派生変数
③ 外れ値
④ 欠損値
【解説】
正解: ②
既存の変数(生データ)から、計算や加工によって導き出された新しい項目を「派生変数」と呼びます。単なる数値の羅列から、分析に役立つ「意味のある情報」を取り出す重要なステップです。
■ 派生変数の具体例(図解イメージ)
・売上、客数 → 割り算 → 客単価
・生年月日 → 計算 → 年齢
・購入商品名 → 分類 → カテゴリフラグ
■ 特徴量エンジニアリングとの関係
特徴量エンジニアリングとは、モデルの精度を高めるためにデータを最適化する工程全体の総称です。派生変数の作成は、その工程の中に含まれる代表的な手法のひとつです。
まとめ:
「既存のデータから導出(計算)できるもの = 派生変数」という定義をしっかり覚えておきましょう!
PR