次のような感じです。
尺度 | 代表値 |
|
名義尺度 | 最頻値 |
序数尺度 | 中央値 |
間隔尺度 | 平均値 |
比例尺度 | 幾何平均、調和平均 |
PR
1.はじめに
検索結果や機械学習の結果、正しいものを、正しいと評価しているか。
間違ったものを、間違っていると評価しているか、を評価する。(1)true positive (TP)
正しいものを、正しいと評価している(2)false negative(FN)
間違ったものを、正しいと評価している
(3)false positive(FP)
正しいものを、間違ったと評価している
(4)true negative(TN)
間違ったものを、間違ったと評価している
2. 正解率
Accuracy = ( TP + TN ) / ( TP + FN+FP+TN )
分子は、正しいもの、分母は、全部です。
3.精度(適合率)
Precision = TP / (TP + FP)
正しいものと判断したもののうち、どれだけが、正しかったか。
4. 再現率
Recall = TP / (TP + FN)
正しいもののうち、どれだけ正しいと判断したか。
5.F値
一般に、精度と再現率は、一方を上げると、一方は、下がる傾向にある。
そのため、精度と再現率の調和平均 F値 を評価に用いることもある。
F 値 = 2*Precision*Recall / (Precision + Recall )
アンケートで用いられる尺度。
1.強く賛成する。
2.賛成する。
3.どちらでもない。
4.反対である。
5.強く反対する。
・ノンパラメトリックな検定
・帰無仮説は、「2つの母集団の分布が等しい」
対立仮説は、「2つの母集団の分布は、等しくない」
をもとに、検定する。
四分位数
昇順のデータを同数に4等分したとき、全体の1/4, 2/4 , 3/4の位置にある
値を四分位数。
順に、第1四分位数、第2四分位数、第3四分位数という。
メジアン
すべてのデータを大きい順に並べた時に、中央に位置する
数字をメジアン(中央値)という。
メジアンは、第2四分位数である。
パーセンタイル
データを100分割した場合のデータの位置をパーセンタイルという。
例えば、第1四分位数は、25パーセントタイル、中央値は、50パーセンタイル。
ヒンジ
下限ヒンジ
メジアン以下のデータのメジアン。
第1四分位数と、近似的に一致。
上限ヒンジ
メジアン以上のデータのメジアン。
第3四分位数と、近似的に一致。