Policy Iteration

policy iteration 알고리즘은 policy improvement 이론에 기반한 방식으로, 단순히 임의의 policy 에서 시작해서 policy evaluation step $E$ 와 improvement step $I$ 를 반복적으로 밟아가며 최종적으로 optimal policy 에 도달하는 방식을 의미한다.

이를 수식화하면 아래와 같다.

π_{0} ⟶ E v_{π_{0}} ⟶ I π_{1} ⟶ E v_{π_{1}} ⟶ I π_{2} ⟶ E \dots ⟶ I π_{*} ⟶ E v_{*}

여기서 evaluation 또는 improvement 단계를 sweep 이라 표현한다 (e.g. 네번 반복하면 4 sweeps).

아래는 위 과정을 도식화한 모습이다.

300

A.1) 알고리즘

A.2) 단점

policy improvement step 전에 항상 policy evaluation 을 수행해야하므로 높은 계산 비용이 요구된다. 이러한 이슈를 완화하기 위해 value iteration 알고리즘을 이용할 수 있다.

Zzong's Notes

탐색기

policy iteration

Policy Iteration

A.1) 알고리즘

A.2) 단점

B) References

링크된 언급

목차

탐색기

policy iteration

Policy Iteration

A.1) 알고리즘

A.2) 단점

B) References

링크된 언급

함께 보면 좋은 글

목차