Value Iteration

policy iteration 과정에서 policy evaluation 높은 계산 비용이 필요하다. 이러한 이슈를 해소하기 위해 value iteration 알고리즘을 활용한다. 이 알고리즘은 Bellman optimality equation 을 활용하여 policy evaluation 과 improvement 를 동시에 수행할 수 있다.

value iteration 은 모든 $s \in S$ 에 대하여 다음과 같이 수행된다.

v_{k + 1} (s) ≐ a max q_{k} (s, a) = a max E [R_{t + 1} + γ v_{k} (S_{t + 1}) ∣ S_{t} = s, A_{t} = a] = a max s^{'}, r \sum p (s^{'}, r ∣ s, a) [r + γ v_{k} (s^{'})]

policy iteration 과 마찬가지로 value iteration 도 정확히 $v_{*}$ 로 수렴하기 위해서 형식적으로는 무한번의 반복이 필요하다. 하지만 실제로는 거의 한번 정도의 수행으로 멈춘다.

Zzong's Notes

탐색기

value iteration

Value Iteration

Algorithm

References

링크된 언급

목차

탐색기

value iteration

Value Iteration

Algorithm

References

링크된 언급

함께 보면 좋은 글

목차