1.はじめに
検索結果や機械学習の結果、正しいものを、正しいと評価しているか。
間違ったものを、間違っていると評価しているか、を評価する。(1)true positive (TP)
正しいものを、正しいと評価している(2)false negative(FN)
間違ったものを、正しいと評価している
(3)false positive(FP)
正しいものを、間違ったと評価している
(4)true negative(TN)
間違ったものを、間違ったと評価している
2. 正解率
Accuracy = ( TP + TN ) / ( TP + FN+FP+TN )
分子は、正しいもの、分母は、全部です。
3.精度(適合率)
Precision = TP / (TP + FP)
正しいものと判断したもののうち、どれだけが、正しかったか
4. 再現率
Recall = TP / (TP + FN)
正しいもののうち、どれだけ正しいと判断したか
5.F値
一般に、精度と再現率は、一方を上げると、一方は、下がる傾向にある。
そのため、精度と再現率の調和平均 F値 を評価に用いることもある。
F 値 = 2*Precision*Recall / (Precision + Recall )
PR
分析に使う変数のうち、独立変数でも、従属変数でもないものを
統制変数という
・入力データを、0.0~1.0 あるいは -1.0~1.0 の範囲のデータにスケールする方法
・0.0~1.0にする場合、次のような方法が用いられる
標準化データ = ( データ - 最小値 ) / ( 最大値 - 最小値)
データの種類を表す。このデータの種類により、分析手法も異なってくる
1.名義尺度
・「男性には1、女性には2」の「1」「2」
・ラベルとしては、機能するが、大小比較等、数字には、意味がない
・カテゴリーデータとも呼ばれる
・2つの値をとるとき、二値データとも呼ばれる
・四則演算は、できない
・例としては、性別、○○分類、背番号、血液型、天気
2.順序尺度
・「理解できたは1、少し理解できたは2、理解できないは3」の「1」「2」「3」
・順番には意味があるが、「1と2の差」と「2と3の差」が同じ程度か、どうかには、意味がない
3.間隔尺度
・順番と間隔に意味がある
・華氏の温度が例
10度と20度の差は、15度と25度の違いに等しい
・加減には意味があるが、乗法や除法には、意味がない
・例としては、知能指数
4.比例尺度
・間隔尺度に、自然数の0が加わる
・年齢があてはまる
・加減乗除が可能なデータ
・例としては
長さ、重さ、時間、体重、身長、売上高、費用
・長さは比例尺度であり、温度は間隔尺度である
4mは、2mの2倍という言い方ができる
摂氏4℃の気温は、2℃の2倍暑いという言い方はできない