データマイニング 頻出パターンのマイニング
トランザクションデータの中で、頻出するパターンを発見する。
次のようなパターンがある。
・頻出アイテムセット
ミルクとパン等、一緒に出現するアイテム
・頻出順
カメラとメモリカードなど、時系列で現れるアイテム
PR
訪問者の情報と、訪問者以外の情報の相関を分析することで
推薦を行う
スパース(線形)モデリング
・線形モデルでは、特徴量の数が多いと、汎化性能が落ちる
・そのため予測に寄与しないと判断した重みを、0 にし、
その特徴量を利用しない方法が、スパース(線形)モデリング
・この手法を利用したのが
Lasso、Elastic Net
アンサンブル学習
複数のモデルを作り、
・分類は多数決
・回帰は平均など
を用いて結果を判定する。
学習の手法として、次の2つがある。
・バギング 各モデルを並列に学習
・ブースティング 各モデルを逐次学習
アンサンブル予測
観測データに、誤差を与えて、複数の結果を導き、
それぞれの予測を組み合わせて、正確性を高める方法