1.グリッドサーチ
ハイパーパラメータのすべての組み合わせを試す。
2.ランダムサーチ
回数を決めて、ランダムに試す。
3.ベイズ最適化
そこまでの探索結果から、最適値等を予測する。
PR
決定木の種類
分類木 ・・・ カテゴリ変数を、説明変数とする。
回帰木 ・・・量的変数を、説明変数とする。
決定木における枝刈り
決定木の部分木のうち、過学習になっているもの等を
削除する。
1.半教師あり学習
大量の正解のわからない問題がある
2.移転学習
解決したい問題には、少量の解しかない
3.移転学習
解決したい問題には、少量の解しかないが
似た問題には、大量の解がある
4.ゼロミット学習
移転学習で、正解が、ほどんどない
あるいは、全くない
データマイニングの標準的なプロセス。次のようなライフサイクルとなる。
1.ビジネスの理解
プロジェクトの目的や要求を、ビジネスの視点から理解する。それをデータマイニングの問題として定義する。
2.データの理解
データを集め、データの品質向上や、利用するデータの特定を行う。
3.データの準備
データのクリーニングなどを行い、データセットを準備する。
4.モデリング
いろいろなモデルで、いろいろなパラメータでの施行を行う。
5.評価
6.ディプロイメント
アンサンブル法は、複数のモデルを組み合わせて、精度を上げる方法。
1.ランダムフォレスト
複数の決定木を用い、平均などで、予想する。
2.勾配ブースティング
前の決定木が間違えたデータを学習して精度を上げる。