Bellman Optimality Equation

state-value function $v_{π} (s)$ 에 대한 Bellman Equation 은 다음과 같다.

v_{π} (s) ≜ a \sum π (a ∣ s) s^{'}, r \sum p (s^{'}, r ∣ s, a) [r + γ v_{π} (s^{'})]

하지만 optimal state-value function $v_{*}$ 는 $π (a ∣ s)$ 가 필요없다. 왜냐하면 항상 최적의 policy 는 누적 보상을 최대화하는 action 을 이미 알고있기 때문이다.

결과적으로 optimal policy 에 대한 state-value function 에 대한 bellman 수식, 즉, bellman optimality equation 은 다음과 같이 바꿔쓸 수 있다.

v_{*} (s) = = = a max q_{*} (s, a) a max E [R_{t + 1} + γ v_{*} (s^{'}) ∣ S_{t} = s, A_{t} = a] a max s^{'}, r \sum p (s^{'}, r ∣ s, a) [r + γ v_{*} (s^{'})]

A.1) 식 풀어 쓰기

v_{*} (s) = a \in A (s) max q_{π_{*}} (s, a) = a max E_{π_{*}} [G_{t} ∣ S_{t} = s, A_{t} = a] = a max E_{π_{*}} [R_{t + 1} + γ G_{t + 1} ∣ S_{t} = s, A_{t} = a] = a max E [R_{t + 1} + γ v_{*} (S_{t + 1}) ∣ S_{t} = s, A_{t} = a] = a max s^{'}, r \sum p (s^{'}, r ∣ s, a) [r + γ v_{*} (s^{'})]

여기서 $G_{t} \to R_{t + 1} + γ G_{t + 1}$ 는 이전에 수식을 활용하여 유도된다.

G_{t} ≐ R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + γ^{3} R_{t + 4} + \dots = R_{t + 1} + γ (R_{t + 2} + γ R_{t + 3} + γ^{2} R_{t + 4} + \dots) = R_{t + 1} + γ G_{t + 1}

optimal action-value function $q_{*}$ 에 대한 Bellman Optimality Equation 은 다음과 같다.

q_{*} (s, a) = E [R_{t + 1} + γ v_{*} (s^{'}) ∣ S_{t} = s, A_{t} = a] = E [R_{t + 1} + γ a^{'} max q_{*} (S_{t + 1}, a^{'}) ∣ S_{t} = s, A_{t} = a] = s^{'}, r \sum p (s^{'}, r ∣ s, a) [r + γ a^{'} max q_{*} (s^{'}, a^{'})]

Bellman Optimality Equation 을 푸는 것은 optimal policy 를 찾는데 사용할 수 있다. 하지만 실제로는 그렇게 유용하지 못한데, 왜냐하면 다음과 같은 세가지 조건이 만족되어야 하기 때문이다.

예를 들어 벡가몬 게임의 경우 (1), (3) 은 만족하지만 (2) 의 경우 $1 0^{20}$ 에 대한 경우의 수를 처리해야 한다.