Policy
policy 란 주어진 states 에서 actions 에 대한 확률 분포를 의미하며 로 표현한다.
MDP 에서 RL 의 목표는 expected cumulative reward(expected return) 값을 최대화 하는 policy 를 찾는 것이다.
policy 란 주어진 states 에서 actions 에 대한 확률 분포를 의미하며 로 표현한다.
MDP 에서 RL 의 목표는 expected cumulative reward(expected return) 값을 최대화 하는 policy 를 찾는 것이다.