850強化学習｜いけいけ機械学習

モンテカルロ法による強化学習

モンテカルロ法による強化学習

試行をランダムに繰り返し、知識を獲得していく

Q学習

・強化学習の手法の１つ

・全ての行動パターンを試すことは、時間的に現実的でない

・そこで、途中の状態に対して、報酬を与える

・ある途中状態において、最終的に与えられる報酬の期待値を

Q値、という

・このQ値を用いて、状態を評価する