Q学習 850強化学習 2022年07月17日 0 Q学習・強化学習の手法の1つ・全ての行動パターンを試すことは、時間的に現実的でない・そこで、途中の状態に対して、報酬を与える・ある途中状態において、最終的に与えられる報酬の期待値をQ値、という・このQ値を用いて、状態を評価する