Zzong's Notes

Home

❯

algorithms

❯

dynamic programming

dynamic programming


링크된 언급

3
bootstrapping

...있다. 이러한 과정을 bootstrapping 이라 한다. 다만, 이렇게 수행하는 방식은 states 가 너무 많은 경우 실행이 불가능하다. 많은 Reinforcement Learning 방법은 DP 에서 요구되는 완전하고 정확한 환경 모델 (MDP) 없이도 bootstrapping 을 수행한다. D) Related bagging

Monte Carlo Method(RL)

...법은 경험 (experience) 이 필요하다. 경험이란 환경과의 상호 작용을 통해 얻어지는 일련의 states, actions 그리고 rewards 의 sample 을 의미한다. MC 방식은 MDP 를 알 수 없는 상황에서 value function 을 추정한다는 관점에서 model free prediction 방식으로 불린다. B) Monte Carlo Prediction 우선 몬테 카를...

Reinforcement Learning

...r RS A Survey on Reinforcement Learning for Recommender Systems C) Related Markov Decision Process, dynamic programming, Monte Carlo Method, temporal difference N step Bootstrapping Policy Gradient Multi Armed Bandit