忍者ブログ

いけいけ機械学習

統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

決定木

決定木の種類

分類木 ・・・ カテゴリ変数を、説明変数とする。

回帰木 ・・・量的変数を、説明変数とする。



決定木における枝刈り

決定木の部分木のうち、過学習になっているもの等を

削除する。



PR

教師あり学習の分類

1.半教師あり学習

大量の正解のわからない問題がある


2.移転学習

解決したい問題には、少量の解しかない


3.移転学習

解決したい問題には、少量の解しかないが

似た問題には、大量の解がある


4.ゼロミット学習

移転学習で、正解が、ほどんどない

あるいは、全くない




CRISP-DM

データマイニングの標準的なプロセス。次のようなライフサイクルとなる。


1.ビジネスの理解

プロジェクトの目的や要求を、ビジネスの視点から理解する。それをデータマイニングの問題として定義する。


2.データの理解

データを集め、データの品質向上や、利用するデータの特定を行う。


3.データの準備

データのクリーニングなどを行い、データセットを準備する。


4.モデリング

いろいろなモデルで、いろいろなパラメータでの施行を行う。


5.評価


6.ディプロイメント




遺伝的アルゴリズムの処理

1.コーティング

問題を、遺伝子の型に変換する

2.初期設定

1.の遺伝子型を元に、個体をランダムに発生させる

3.適応度評価

個体の適応度を計算する
結果が、OKならば処理を終了する

4.選択

3.の結果をもとに、交叉を行う個体を選択する
「適応度比例方式」「トーナメント方式」等の手法がある

5.交叉

2つの個体から新しい個体を生み出す

6.突然変異

ある部分の値を置き換える突然変異で
新しい個体を生成する

7.3に戻る








決定木を用いたアンサンブル法

アンサンブル法は、複数のモデルを組み合わせて、精度を上げる方法。


1.ランダムフォレスト

複数の決定木を用い、平均などで、予想する。


2.勾配ブースティング

前の決定木が間違えたデータを学習して精度を上げる。


        
  • 1
  • 2