ブログ｜いけいけ機械学習

教師あり学習の分類

1.半教師あり学習

大量の正解のわからない問題がある

2.移転学習

解決したい問題には、少量の解しかない

3.移転学習

解決したい問題には、少量の解しかないが

似た問題には、大量の解がある

4.ゼロミット学習

移転学習で、正解が、ほどんどない

あるいは、全くない

PR

AIチャットの回答モデル

1. completion

送られてきた文章のみを対象として、回答する。

2.Chat

送られてきた文章の前後の文章も対象として、回答する。

四分位数

昇順のデータを同数に4等分したとき、全体の1/4, 2/4 , 3/4の位置にある

値を四分位数。

順に、第1四分位数、第2四分位数、第3四分位数という。

メジアン

すべてのデータを大きい順に並べた時に、中央に位置する

数字をメジアン(中央値)という。

メジアンは、第2四分位数である。

パーセンタイル

データを100分割した場合のデータの位置をパーセンタイルという。

例えば、第1四分位数は、25パーセントタイル、中央値は、50パーセンタイル。

ヒンジ

下限ヒンジ

メジアン以下のデータのメジアン。

第1四分位数と、近似的に一致。

上限ヒンジ

メジアン以上のデータのメジアン。

第3四分位数と、近似的に一致。

交差検証

データを分割し、一部でモデルを作成し(訓練データ)、

残るデータでテスト評価を行う(評価用データ)。

1.ホールドアウト法

データを訓練用データ(例:全体のデータの70%)、

評価用データ(例:全体のデータの30%)に2分割する。

2. k分割法

・学習用データをk個に分割

・k個のうち、1つを評価用データ、残りを学習用データとして、

学習・評価をk回実行する。

データマイニングの標準的なプロセス。次のようなライフサイクルとなる。

1.ビジネスの理解

プロジェクトの目的や要求を、ビジネスの視点から理解する。それをデータマイニングの問題として定義する。

2.データの理解

データを集め、データの品質向上や、利用するデータの特定を行う。

3.データの準備

データのクリーニングなどを行い、データセットを準備する。

4.モデリング

いろいろなモデルで、いろいろなパラメータでの施行を行う。

5.評価

6.ディプロイメント

いけいけ機械学習