【DS検定対策】強化学習の土台！「マルコフ決定過程」の割り切り思想

AIが試行錯誤して最適な動きを学ぶ「強化学習」。その舞台裏を数学的にスマートに表現するのが、マルコフ決定過程（MDP）です。

1. 【問題】

強化学習において、環境のモデル化によく用いられる「マルコフ決定過程（MDP）」の性質として、最も適切なものはどれでしょうか？

① 未来の状態は、過去のすべての状態と行動の履歴に基づいて決定される。
② 未来の状態は、現在の状態と選択した行動にのみ依存し、それ以前の過去の状態には依存しない。
③ 未来の状態は完全にランダムであり、現在の状態や行動からは一切予測できない。
④ 行動を選択しても状態は変化せず、報酬の額だけが確率的に変化する。

2. 【解答】

正解： ② 未来の状態は、現在の状態と選択した行動にのみ依存し、それ以前の過去の状態には依存しない。

3. 整理：MDPを構成する「4つの要素」

マルコフ決定過程では、エージェント（AI）と環境のやりとりを以下の4つの要素（セットで$S, A, P, R$と表記されます）で定義します。

【 MDPの基本要素】

1. 状態（State: $S$）：AIが今置かれている状況（例：迷路の座標「C3」）

2. 行動（Action: $A$）：AIが取れる選択肢（例：「右に進む」）

3. 遷移確率（Probability: $P$）：ある状態で行動したとき、次にどの状態に移るかの確率

4. 報酬（Reward: $R$）：行動の結果として得られるご褒美（例：ゴールに近づいたら「+10点」）

--------------------------

★ 「過去は関係ない」というメリット：

「どうやってその状態（C3）にたどり着いたか」という過去のルートを一切無視して、「今の状態」と「次の行動」だけで未来を計算できるため、数式やプログラムが劇的にシンプルになります。

4. DS検定で狙われる関連用語

1. 方策（Policy: $\pi$）: ある状態のときに、どのような確率で行動を選ぶかという「AIの行動指針（戦略）」のことです。
2. 価値関数（Value Function）: 今の「状態」や「行動」が、将来的にどれくらい報酬をもたらしそうかという「先を見据えたスコア」です。

5. DS検定形式：実戦4択クイズ

問：強化学習において、現在の状態と行動のみで次の状態が決まる「マルコフ決定過程」の前提が成り立たず、環境の一部しか観測できない複雑な状態をモデル化したものを何と呼ぶか。

① 動的計画法 ② 部分観測マルコフ決定過程（POMDP） ③ Qラーニング ④ モンテカルロ法

【正解： ② 】

解説： 現実世界の「霧に隠れて先が見えない麻雀やポーカー」のように、状態の一部が隠されているモデルを「部分観測（Partially Observable）MDP」と呼び、応用問題として時折顔を出します。

6. まとめ

DS検定において「未来の状態は現在の状態と行動に依存し、過去に依存しない」というフレーズが出たら、100%「マルコフ決定過程（MDP）」です。強化学習というゲームのルールブックを定義する言葉として、しっかり記憶に刻んでおきましょう！