忍者ブログ

いけいけ機械学習

統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

2つのデータを比較する

2つのデータを比較するときは、単純な比較ではなく、平均や散らばりを考慮する

ことが必要である。そのため、データを次のように変換する。


1.標準化

標準化とは、平均が0、 標準偏差が1、となるようデータを変換する。

標準化後のデータ = ( 標準化前のデータ - 標準化前のデータの平均 ) / 標準化前の標準偏差


2.偏差値

偏差値は、 平均が50、 標準偏差が10、となるようデータを変換する。

偏差値 = ( ( 標準化前のデータ - 標準化前のデータの平均 ) / 標準化前の標準偏差 )

×10 + 50
PR

点推定の考え方

1.不偏推定量を用いる方法

・母集団の平均は、標本平均を、そのまま用いる。

・母集団の分散は、標本の不偏分散を用いる。



2.最尤法を用いる方法

・母集団の平均は、標本平均を、そのまま用いる。

・母集団の分散は、標本分散を用いる。




データの分布に関する経験則


ヒストグラムで表したときの分布の型で、

1か所の最大値をもつ左右対称の形であれば、次が成り立つ。

1.おおよそ68%のデータが、平均値から、1標準偏差内に存在する

2.おおよそ95%のデータが、平均値から、2標準偏差内に存在する

3.おおよそすべてのデータが、平均値から、3標準偏差内に存在する




        
  • 1
  • 2