Policy

policy 란 주어진 states 에서 actions 에 대한 확률 분포를 의미하며 로 표현한다.

MDP 에서 RL 의 목표는 expected cumulative reward(expected return) 값을 최대화 하는 policy 를 찾는 것이다.

Related

References