名義データを数値データとして扱う時に利用する。
たとえば、「はい」を1、「いいえ」を0とする。
PR
平均から、標準偏差の3倍以上離れた値を、外れ値とみなす。
2つの変数x, y の相関が低いにもかかわらず、
第3の変数zの影響で、xとyの相関が高くなる
数値データ
正規化
データのスケールを調整する。各特徴量を0~1の範囲に変換する標準化
特徴量を、標準正規分布(平均0、分散1)に変換時系列データ
異常値
異常値の排除など欠損値
欠損値の補完など自然言語
表記のゆれ、略語など
用語の統一音声データ
雑音の除去など
画像データ
サイズや色の統一等