決定木の種類
分類木 ・・・ カテゴリ変数を、説明変数とする。
回帰木 ・・・量的変数を、説明変数とする。
決定木における枝刈り
決定木の部分木のうち、過学習になっているもの等を
削除する。
PR
1.半教師あり学習
大量の正解のわからない問題がある
2.移転学習
解決したい問題には、少量の解しかない
3.移転学習
解決したい問題には、少量の解しかないが
似た問題には、大量の解がある
4.ゼロミット学習
移転学習で、正解が、ほどんどない
あるいは、全くない
データマイニングの標準的なプロセス。次のようなライフサイクルとなる。
1.ビジネスの理解
プロジェクトの目的や要求を、ビジネスの視点から理解する。それをデータマイニングの問題として定義する。
2.データの理解
データを集め、データの品質向上や、利用するデータの特定を行う。
3.データの準備
データのクリーニングなどを行い、データセットを準備する。
4.モデリング
いろいろなモデルで、いろいろなパラメータでの施行を行う。
5.評価
6.ディプロイメント
1.コーティング
問題を、遺伝子の型に変換する2.初期設定
1.の遺伝子型を元に、個体をランダムに発生させる3.適応度評価
個体の適応度を計算する
結果が、OKならば処理を終了する4.選択
3.の結果をもとに、交叉を行う個体を選択する
「適応度比例方式」「トーナメント方式」等の手法がある5.交叉
2つの個体から新しい個体を生み出す6.突然変異
ある部分の値を置き換える突然変異で
新しい個体を生成する7.3に戻る
アンサンブル法は、複数のモデルを組み合わせて、精度を上げる方法。
1.ランダムフォレスト
複数の決定木を用い、平均などで、予想する。
2.勾配ブースティング
前の決定木が間違えたデータを学習して精度を上げる。