データを分割し、一部でモデルを作成し(訓練データ)、
残るデータでテスト評価を行う(評価用データ)。
1.ホールドアウト法
データを訓練用データ(例:全体のデータの70%)、
評価用データ(例:全体のデータの30%)に2分割する。
2. k分割法
・学習用データをk個に分割
・k個のうち、1つを評価用データ、残りを学習用データとして、
学習・評価をk回実行する。
PR
データマイニングの標準的なプロセス。次のようなライフサイクルとなる。
1.ビジネスの理解
プロジェクトの目的や要求を、ビジネスの視点から理解する。それをデータマイニングの問題として定義する。
2.データの理解
データを集め、データの品質向上や、利用するデータの特定を行う。
3.データの準備
データのクリーニングなどを行い、データセットを準備する。
4.モデリング
いろいろなモデルで、いろいろなパラメータでの施行を行う。
5.評価
6.ディプロイメント
データマイニングのプロセス例
1.ドメイン知識の獲得
2.データの準備
3.モデリング
4.適用
5.知識の獲得
データの種類を表す。このデータの種類により、分析手法も異なってくる1.名義尺度
・「男性には1、女性には2」の「1」「2」
・ラベルとしては、機能するが、大小比較等、数字には、意味がない
・カテゴリーデータとも呼ばれる
・2つの値をとるとき、二値データとも呼ばれる
・四則演算は、できない
・例としては、性別、○○分類、背番号、血液型、天気
2.順序尺度
・「理解できたは1、少し理解できたは2、理解できないは3」の「1」「2」「3」
・順番には意味があるが、「1と2の差」と「2と3の差」が同じ程度か、どうかには、意味がない
3.間隔尺度
・順番と間隔に意味がある
・華氏の温度が例
10度と20度の差は、15度と25度の違いに等しい
・加減には意味があるが、乗法や除法には、意味がない
・例としては、知能指数
4.比例尺度
・間隔尺度に、自然数の0が加わる
・年齢があてはまる
・加減乗除が可能なデータ
・例としては
長さ、重さ、時間、体重、身長、売上高、費用
・長さは比例尺度であり、温度は間隔尺度である
4mは、2mの2倍という言い方ができる
摂氏4℃の気温は、2℃の2倍暑いという言い方はできない
問題
52枚1組のトランプの中から、1枚引くとき、
赤のカードが出る確率は?答
赤と黒が半分なので、1/2。
問題
サイコロを1回フルとき、4以下の数字が出る確率は?答
1,2,3,4のいずれかが出る確率なので、4/6。
問題
硬貨を2回投げるとき、少なくとも表が1回は、出る確率は?答
(表、表)(表、裏)(裏、表)の3パターンなので、3/4。