dynamic programming

링크된 언급

...있다. 이러한 과정을 bootstrapping 이라 한다. 다만, 이렇게 수행하는 방식은 states 가 너무 많은 경우 실행이 불가능하다. 많은 Reinforcement Learning 방법은 DP 에서 요구되는 완전하고 정확한 환경 모델 (MDP) 없이도 bootstrapping 을 수행한다. D) Related bagging

Monte Carlo Method(RL)

Monte Carlo Control DP 와 비슷한 GPI(Generalized policy iteration) 방식으로 MC 도 optimal policies 를 approximate 할 수 있다.

Reinforcement Learning

Markov Decision Process, dynamic programming, Monte Carlo Method, temporal difference

Zzong's Notes

탐색기

dynamic programming

링크된 언급

탐색기

dynamic programming

링크된 언급

함께 보면 좋은 글