忍者ブログ

いけいけ機械学習

統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。


精度、再現率、F値

1.はじめに


検索結果や機械学習の結果、正しいものを、正しいと評価しているか。

間違ったものを、間違っていると評価しているか、を評価する。

(1)true positive (TP)

    正しいものを、正しいと評価している

(2)false negative(FN)


   間違ったものを、正しいと評価している

(3)false positive(FP)

 

   正しいものを、間違ったと評価している

(4)true negative(TN)


   間違ったものを、間違ったと評価している


2. 正解率

Accuracy =  ( TP + TN )  /  ( TP + FN+FP+TN )


分子は、正しいもの、分母は、全部です。

3.精度(適合率)


Precision =  TP / (TP + FP)

正しいものと判断したもののうち、どれだけが、正しかったか。

4. 再現率


Recall = TP / (TP + FN)


正しいもののうち、どれだけ正しいと判断したか。

5.F値

一般に、精度と再現率は、一方を上げると、一方は、下がる傾向にある。


そのため、精度と再現率の調和平均 F値 を評価に用いることもある。


F 値 =  2*Precision*Recall / (Precision + Recall )








四分位数、メジアン、パーセンタイル、ヒンジ

四分位数


昇順のデータを同数に4等分したとき、全体の1/4, 2/4 , 3/4の位置にある

値を四分位数。

順に、第1四分位数、第2四分位数、第3四分位数という。


メジアン


すべてのデータを大きい順に並べた時に、中央に位置する

数字をメジアン(中央値)という。

メジアンは、第2四分位数である。


パーセンタイル


データを100分割した場合のデータの位置をパーセンタイルという。

例えば、第1四分位数は、25パーセントタイル、中央値は、50パーセンタイル。


ヒンジ


下限ヒンジ

メジアン以下のデータのメジアン。

第1四分位数と、近似的に一致。

上限ヒンジ

メジアン以上のデータのメジアン。

第3四分位数と、近似的に一致。

名義尺度、順序尺度、間隔尺度、比例尺度

データの種類を表す。このデータの種類により、分析手法も異なってくる

1.名義尺度

・「男性には1、女性には2」の「1」「2」

・ラベルとしては、機能するが、大小比較等、数字には、意味がない

・カテゴリーデータとも呼ばれる

・2つの値をとるとき、二値データとも呼ばれる

・四則演算は、できない

・例としては、性別、○○分類、背番号、血液型、天気

2.順序尺度

・「理解できたは1、少し理解できたは2、理解できないは3」の「1」「2」「3」

・順番には意味があるが、「1と2の差」と「2と3の差」が同じ程度か、どうかには、意味がない

3.間隔尺度

・順番と間隔に意味がある

・華氏の温度が例

 10度と20度の差は、15度と25度の違いに等しい

・加減には意味があるが、乗法や除法には、意味がない

・例としては、知能指数

4.比例尺度

・間隔尺度に、自然数の0が加わる

・年齢があてはまる

・加減乗除が可能なデータ

・例としては

 長さ、重さ、時間、体重、身長、売上高、費用

・長さは比例尺度であり、温度は間隔尺度である

 4mは、2mの2倍という言い方ができる

 摂氏4℃の気温は、2℃の2倍暑いという言い方はできない





        
  • 1
  • 2