忍者ブログ

いけいけ機械学習

統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

回帰と分類

分類とは

予測のうち、目的変数が、カテゴリ変数となるものを

分類 

という

分類の方法

1.分類木によるもの

分類の条件を定めた、分類木を作る

2.線形判別によるもの

超平面を定義し、分割する



回帰と分類

線形モデルは、目的変数(y)を、説明変数(x)の線形式で表現する。

例えば

y = ax + b


この式で表されるモデルで

yが連続尺度なら回帰となり、名義尺度なら分類となる







PR


精度、再現率、F値

1.はじめに

検索結果や機械学習の結果、正しいものを、正しいと評価しているか。

間違ったものを、間違っていると評価しているか、を評価する。

(1)true positive (TP)

    正しいものを、正しいと評価している

(2)false negative(FN)



   間違ったものを、正しいと評価している

(3)false positive(FP)

 

   正しいものを、間違ったと評価している

(4)true negative(TN)



   間違ったものを、間違ったと評価している



2. 正解率


Accuracy =  ( TP + TN )  /  ( TP + FN+FP+TN )


分子は、正しいもの、分母は、全部です。


3.精度(適合率)


Precision =  TP / (TP + FP)

正しいものと判断したもののうち、どれだけが、正しかったか

4. 再現率


Recall = TP / (TP + FN)


正しいもののうち、どれだけ正しいと判断したか

5.F値


一般に、精度と再現率は、一方を上げると、一方は、下がる傾向にある。


そのため、精度と再現率の調和平均 F値 を評価に用いることもある。


F 値 =  2*Precision*Recall / (Precision + Recall )













データの標準化


・入力データを、0.0~1.0 あるいは -1.0~1.0 の範囲のデータにスケールする方法

・0.0~1.0にする場合、次のような方法が用いられる

   標準化データ = ( データ - 最小値 )  / ( 最大値 - 最小値)