1.半教師あり学習
大量の正解のわからない問題がある
2.移転学習
解決したい問題には、少量の解しかない
3.移転学習
解決したい問題には、少量の解しかないが
似た問題には、大量の解がある
4.ゼロミット学習
移転学習で、正解が、ほどんどない
あるいは、全くない
PR
1. completion
送られてきた文章のみを対象として、回答する。
2.Chat
送られてきた文章の前後の文章も対象として、回答する。
四分位数
昇順のデータを同数に4等分したとき、全体の1/4, 2/4 , 3/4の位置にある
値を四分位数。
順に、第1四分位数、第2四分位数、第3四分位数という。
メジアン
すべてのデータを大きい順に並べた時に、中央に位置する
数字をメジアン(中央値)という。
メジアンは、第2四分位数である。
パーセンタイル
データを100分割した場合のデータの位置をパーセンタイルという。
例えば、第1四分位数は、25パーセントタイル、中央値は、50パーセンタイル。
ヒンジ
下限ヒンジ
メジアン以下のデータのメジアン。
第1四分位数と、近似的に一致。
上限ヒンジ
メジアン以上のデータのメジアン。
第3四分位数と、近似的に一致。
データを分割し、一部でモデルを作成し(訓練データ)、
残るデータでテスト評価を行う(評価用データ)。
1.ホールドアウト法
データを訓練用データ(例:全体のデータの70%)、
評価用データ(例:全体のデータの30%)に2分割する。
2. k分割法
・学習用データをk個に分割
・k個のうち、1つを評価用データ、残りを学習用データとして、
学習・評価をk回実行する。
データマイニングの標準的なプロセス。次のようなライフサイクルとなる。
1.ビジネスの理解
プロジェクトの目的や要求を、ビジネスの視点から理解する。それをデータマイニングの問題として定義する。
2.データの理解
データを集め、データの品質向上や、利用するデータの特定を行う。
3.データの準備
データのクリーニングなどを行い、データセットを準備する。
4.モデリング
いろいろなモデルで、いろいろなパラメータでの施行を行う。
5.評価
6.ディプロイメント