分類とは
予測のうち、目的変数が、カテゴリ変数となるものを
分類
という
分類の方法
1.分類木によるもの
分類の条件を定めた、分類木を作る
2.線形判別によるもの
超平面を定義し、分割する
回帰と分類
線形モデルは、目的変数(y)を、説明変数(x)の線形式で表現する。
例えば
y = ax + b
この式で表されるモデルで
yが連続尺度なら回帰となり、名義尺度なら分類となる
PR
オンライン学習
・データごとにパラメータを更新
バッチ学習
・データ全体を使って、パラメータを更新
ミニバッチ
・訓練データをランダムに、M等分して、等分した各データで学習する
1.はじめに
検索結果や機械学習の結果、正しいものを、正しいと評価しているか。
間違ったものを、間違っていると評価しているか、を評価する。(1)true positive (TP)
正しいものを、正しいと評価している(2)false negative(FN)
間違ったものを、正しいと評価している
(3)false positive(FP)
正しいものを、間違ったと評価している
(4)true negative(TN)
間違ったものを、間違ったと評価している
2. 正解率
Accuracy = ( TP + TN ) / ( TP + FN+FP+TN )
分子は、正しいもの、分母は、全部です。
3.精度(適合率)
Precision = TP / (TP + FP)
正しいものと判断したもののうち、どれだけが、正しかったか
4. 再現率
Recall = TP / (TP + FN)
正しいもののうち、どれだけ正しいと判断したか
5.F値
一般に、精度と再現率は、一方を上げると、一方は、下がる傾向にある。
そのため、精度と再現率の調和平均 F値 を評価に用いることもある。
F 値 = 2*Precision*Recall / (Precision + Recall )
分析に使う変数のうち、独立変数でも、従属変数でもないものを
統制変数という
・入力データを、0.0~1.0 あるいは -1.0~1.0 の範囲のデータにスケールする方法
・0.0~1.0にする場合、次のような方法が用いられる
標準化データ = ( データ - 最小値 ) / ( 最大値 - 最小値)