ブログ｜いけいけ機械学習

データマイニングのプロセス例

データマイニングのプロセス例

1.ドメイン知識の獲得

2.データの準備

3.モデリング

4.適用

5.知識の獲得

PR

名義尺度、順序尺度、間隔尺度、比例尺度

データの種類を表す。このデータの種類により、分析手法も異なってくる

1．名義尺度

・「男性には1、女性には2」の「1」「2」

・ラベルとしては、機能するが、大小比較等、数字には、意味がない

・カテゴリーデータとも呼ばれる

・2つの値をとるとき、二値データとも呼ばれる

・四則演算は、できない

・例としては、性別、○○分類、背番号、血液型、天気

2．順序尺度

・「理解できたは1、少し理解できたは2、理解できないは3」の「1」「2」「3」

・順番には意味があるが、「1と2の差」と「2と3の差」が同じ程度か、どうかには、意味がない

３．間隔尺度

・順番と間隔に意味がある

・華氏の温度が例

　10度と20度の差は、15度と25度の違いに等しい

・加減には意味があるが、乗法や除法には、意味がない

・例としては、知能指数

4．比例尺度

・間隔尺度に、自然数の0が加わる

・年齢があてはまる

・加減乗除が可能なデータ

・例としては

　長さ、重さ、時間、体重、身長、売上高、費用

・長さは比例尺度であり、温度は間隔尺度である

　4mは、2mの2倍という言い方ができる

　摂氏4℃の気温は、2℃の2倍暑いという言い方はできない

五数要約

・最小値、第1四分位数、メジアン、第3四分位数、最大値の5つを

五数要約という。

・第1四分位数、第3四分位数のかわりに、

下側ヒンジ、上側ヒンジを使う場合もある。

問題

52枚1組のトランプの中から、1枚引くとき、

赤のカードが出る確率は？

答え

赤と黒が半分なので、1/2

2つのデータを比較するときは、単純な比較ではなく、平均や散らばりを考慮する

ことが必要である。そのため、データを次のように変換する。

1.標準化

標準化とは、平均が0、標準偏差が1、となるようデータを変換する。

標準化後のデータ = ( 標準化前のデータ - 標準化前のデータの平均 ) / 標準化前の標準偏差

2.偏差値

偏差値は、平均が50、標準偏差が10、となるようデータを変換する。

偏差値 = ( ( 標準化前のデータ - 標準化前のデータの平均 ) / 標準化前の標準偏差 )

×10 + 50