データの種類を表す。このデータの種類により、分析手法も異なってくる1.名義尺度
・「男性には1、女性には2」の「1」「2」
・ラベルとしては、機能するが、大小比較等、数字には、意味がない
・カテゴリーデータとも呼ばれる
・2つの値をとるとき、二値データとも呼ばれる
・四則演算は、できない
・例としては、性別、○○分類、背番号、血液型、天気
2.順序尺度
・「理解できたは1、少し理解できたは2、理解できないは3」の「1」「2」「3」
・順番には意味があるが、「1と2の差」と「2と3の差」が同じ程度か、どうかには、意味がない
3.間隔尺度
・順番と間隔に意味がある
・華氏の温度が例
10度と20度の差は、15度と25度の違いに等しい
・加減には意味があるが、乗法や除法には、意味がない
・例としては、知能指数
4.比例尺度
・間隔尺度に、自然数の0が加わる
・年齢があてはまる
・加減乗除が可能なデータ
・例としては
長さ、重さ、時間、体重、身長、売上高、費用
・長さは比例尺度であり、温度は間隔尺度である
4mは、2mの2倍という言い方ができる
摂氏4℃の気温は、2℃の2倍暑いという言い方はできない
PR
2つのデータを比較するときは、単純な比較ではなく、平均や散らばりを考慮する
ことが必要である。そのため、データを次のように変換する。
1.標準化
標準化とは、平均が0、 標準偏差が1、となるようデータを変換する。
標準化後のデータ = ( 標準化前のデータ - 標準化前のデータの平均 ) / 標準化前の標準偏差
2.偏差値
偏差値は、 平均が50、 標準偏差が10、となるようデータを変換する。
偏差値 = ( ( 標準化前のデータ - 標準化前のデータの平均 ) / 標準化前の標準偏差 )
×10 + 50
・欠損のあるデータを分析する時の手法。
・相関係数を計算するとき、対象となる2つの変量がともに欠損でなければ、
計算対象として、どちらか一方が欠損していれば、計算から外す。
1.不偏推定量を用いる方法
・母集団の平均は、標本平均を、そのまま用いる。
・母集団の分散は、標本の不偏分散を用いる。
2.最尤法を用いる方法
・母集団の平均は、標本平均を、そのまま用いる。
・母集団の分散は、標本分散を用いる。
1. 仮説の立案
解決する課題を明確化し、解決策の仮説を作る。
2.データの収集
3.データの分析
4.課題解決の検証
データ分析の結果から、解決策を検証する。