精度、再現率、F値 40統計・統計分析 2025年08月13日 0 1.はじめに検索結果や機械学習の結果、正しいものを、正しいと評価しているか。間違ったものを、間違っていると評価しているか、を評価する。(1)true positive (TP) 正しいものを、正しいと評価している(2)false negative(FN) 間違ったものを、正しいと評価している(3)false positive(FP) 正しいものを、間違ったと評価している(4)true negative(TN) 間違ったものを、間違ったと評価している2. 正解率Accuracy = ( TP + TN ) / ( TP + FN+FP+TN )分子は、正しいもの、分母は、全部です。3.精度(適合率)Precision = TP / (TP + FP)正しいものと判断したもののうち、どれだけが、正しかったか。4. 再現率Recall = TP / (TP + FN)正しいもののうち、どれだけ正しいと判断したか。5.F値一般に、精度と再現率は、一方を上げると、一方は、下がる傾向にある。そのため、精度と再現率の調和平均 F値 を評価に用いることもある。F 値 = 2*Precision*Recall / (Precision + Recall )
マンホイットニのU検定(ウィルコクソン検定) 40統計・統計分析 2025年07月20日 0 ・ノンパラメトリックな検定・帰無仮説は、「2つの母集団の分布が等しい」対立仮説は、「2つの母集団の分布は、等しくない」をもとに、検定する。
四分位数、メジアン、パーセンタイル、ヒンジ 40統計・統計分析 2025年07月05日 0 四分位数昇順のデータを同数に4等分したとき、全体の1/4, 2/4 , 3/4の位置にある値を四分位数。順に、第1四分位数、第2四分位数、第3四分位数という。メジアンすべてのデータを大きい順に並べた時に、中央に位置する数字をメジアン(中央値)という。メジアンは、第2四分位数である。パーセンタイルデータを100分割した場合のデータの位置をパーセンタイルという。例えば、第1四分位数は、25パーセントタイル、中央値は、50パーセンタイル。ヒンジ下限ヒンジメジアン以下のデータのメジアン。第1四分位数と、近似的に一致。上限ヒンジメジアン以上のデータのメジアン。第3四分位数と、近似的に一致。
名義尺度、順序尺度、間隔尺度、比例尺度 40統計・統計分析 2025年06月25日 0 データの種類を表す。このデータの種類により、分析手法も異なってくる1.名義尺度・「男性には1、女性には2」の「1」「2」・ラベルとしては、機能するが、大小比較等、数字には、意味がない・カテゴリーデータとも呼ばれる・2つの値をとるとき、二値データとも呼ばれる・四則演算は、できない・例としては、性別、○○分類、背番号、血液型、天気2.順序尺度・「理解できたは1、少し理解できたは2、理解できないは3」の「1」「2」「3」・順番には意味があるが、「1と2の差」と「2と3の差」が同じ程度か、どうかには、意味がない3.間隔尺度・順番と間隔に意味がある・華氏の温度が例 10度と20度の差は、15度と25度の違いに等しい・加減には意味があるが、乗法や除法には、意味がない・例としては、知能指数4.比例尺度・間隔尺度に、自然数の0が加わる・年齢があてはまる・加減乗除が可能なデータ・例としては 長さ、重さ、時間、体重、身長、売上高、費用・長さは比例尺度であり、温度は間隔尺度である 4mは、2mの2倍という言い方ができる 摂氏4℃の気温は、2℃の2倍暑いという言い方はできない