Markov Reward Process
Markov Chain 에 reward 를 추가한 시스템
어떤 state 에 도달할 때마다 reward 를 개별적으로 부여한다고 생각하면 편하다.
MRP 는 tuple 로 충분히 표현이 가능하다. 여기서 는 states 집합, 는 전이 확률 행렬, 은 보상 함수 그리고 은 discount factor 이다.
Markov Chain 에 reward 를 추가한 시스템
어떤 state 에 도달할 때마다 reward 를 개별적으로 부여한다고 생각하면 편하다.
MRP 는 tuple 로 충분히 표현이 가능하다. 여기서 는 states 집합, 는 전이 확률 행렬, 은 보상 함수 그리고 은 discount factor 이다.