XとYの2つのデータ群の相関係数は、
(XとYの共分散) / ((Xの標準偏差)*(Yの標準偏差))
この相関係数には、次の欠点がある。
・直線以外の関係は、数値化できない
・外れ値の影響を受ける
PR
データ分析の方法
1.確証的アプローチ
データ分析前に仮設があり、それを検証する
2.探索アプローチ
データを分析し、問題を発見する
1. MAE(Mean Absolute Error)
平均絶対誤差。予測値と正解値の差の絶対値を平均したもの
2.RMSE(Root Mean Squared Error)
二乗平方根誤差。予測値と正解値の差の2乗の平均値の平方根を取ったもの
・相関関係は、2つの変数の間の関係を示す
・因果関係は、2つの変数に、原因と結果の関係があることを示す
・因果関係があれば、相関関係はあるが、
逆は、真ではない
尤度(likehood)と逸脱度(Deviance)
尤度
あるパラメータ下でのデータの発生確率。大きい値の方がよい
逸脱度
データと近似との距離。小さい値の方がよい
逸脱度を最小化するように、最尤推定法が用いられる。