State-value Function
state 의 value 를 state-value function 이라 부른다. 이는 state 에서 시작할 때 얻을 수 있는 expected discounted return 값을 의미한다.
그리고 MDP 에서 이 함수는 policy 를 위해 정의된 것이다. policy 에 의해 전이 확률 행렬이 결정되는 것을 고려해볼 때, policy 를 변경한다는 것은 결국 다른 state-value function 을 가진다는 것을 의미한다.
정의는 아래와 같다.
그리고 에 대한 Bellman Equation 은 다음과 같이 표현 가능하다.
는 state 에서 policy 에 의해 제안된 모든 action 을 고려한다는 것을 의미한다.
B) Optimal State-value and Action-value Function
최적의 policy 는 최적의 state-value function 알려줘야 한다.
optimal action-value function 역시 다음과 같이 정의된다.
그리고 두 optimal function 간 관계는 다음과 같이 표현될 수 있다.
q_{*}(s, a)=E\left[R_{t+1}+\gamma v_{*}\left(S_{t+1}\right) \mid S_{t}=s, A_{t}=a\right] $$ ^8111ef # Related # References