k分割交差検証
データを、k個の同程度の大きさの無作為な部分集合
(分割データ、foldと呼ぶ)に分割する。
k=1 ~ kについて、以下を行う。
(1) k番目以外のすべての分割データを使用して
モデルの学習を行う
(2)学習したモデルで、残りのk番目の分割データを
予測した場合の誤差をみる
この標本外の誤差を用いて、モデルを評価する。
PR
度数分布
・データをいくつかの範囲に分ける
・1つ1つの範囲を階級という
・各階級に属するデータの個数を、その階級の度数という
・スタージェスの公式は、
全データ数をnとするとき、
階級の個数kは、
k = 1 + log2n
ぐらいが適切である、というもの
検定の手順
1.帰無仮説の設定
母集団に対して、否定したい仮説を立てる
2.検定のための計算
実験データから検定のための統計量を計算する
3.確率の計算
実験結果の起こりやすさをもとめる
4.仮説の判定
(1)めったに起きないことが、おきた場合
仮説が間違っていた、と考える
(2)よくあることが、起きただけの場合
仮説は正しいかもしれない、と考える
代表値
・データの特性を1つの値で表現する
・次のような指標が用いられる
平均値
中央値
最頻値
頑健性(ロバネスト)
外れ値の影響を受けにくい性質。
平均値は、外れ値の影響を受けるが、
中央値は、影響を受けない。