Value Function

state $s$ 에서 policy $π$ 를 따를 경우 state-value function 은 $v_{π} (s)$ 다.

v_{π} (s) ≐ E_{π} [G_{t} ∣ S_{t} = s] = E_{π} [k = 0 \sum \infty γ^{k} R_{t + k + 1} ∣ S_{t} = s], forall s \in S

terminal state 의 $v_{π} (s)$ 값은 항상 $0$ 임을 기억하자.

비슷하게, $s$ 에서 $π$ 를 따르는 경우 $a$ 를 취할 때의 action-value function $q_{π} (s, a)$ 는 다음과 같이 정의된다.

q_{π} (s, a) ≐ E_{π} [G_{t} ∣ S_{t} = s, A_{t} = a] = E_{π} [k = 0 \sum \infty γ^{k} R_{t + k + 1} ∣ S_{t} = s, A_{t} = a]

state-value function 와 action-value function 의 function 간 recursive 관계는 매우 중요하다.

v_{π} (s) ≐ E_{π} [G_{t} ∣ S_{t} = s] = E_{π} [R_{t + 1} + γ G_{t + 1} ∣ S_{t} = s] = a \sum π (a ∣ s) s^{'} \sum r \sum p (s^{'}, r ∣ s, a) [r + γ E_{π} [G_{t + 1} ∣ S_{t + 1} = s^{'}]] = a \sum π (a ∣ s) s^{'}, r \sum p (s^{'}, r ∣ s, a) [r + γ v_{π} (s^{'})] = E_{π} [R_{t + 1} + γ v_{π} (S_{t + 1}) ∣ S_{t} = s], for all s \in S

위의 가장 마지막 수식을 Bellman Equation 이라 한다.

expectation 을 구하는 것이기 때문에, 발생할 수 있는 모든 경우의 확률을 구하는 것이 필요하다.

그래서 위의 그림 (backup diagrams) 처럼 $a$ 에 대해서, $s^{'}$ 에 대해서, $r$ 에 대해서, 총 3 개에 대한 확률을 구할 필요가 있다 ( $π (a ∣ s) p (s^{'}, r ∣ s, a)$ )

the value of the start state ( $s$ ) must equal the (discounted) value of the expected next state ( $s^{'}$ ), plus the reward expected along the way.

state-value function $v_{π} (s)$ 와 action-value function $q_{π} (s, a)$ 의 의존관계는 다음과 같이 표현될 수 있다.

Optimal Value Function

optimal state-value function

v_{*} (s) ≐ π max v_{π} (s)

최적의 policy $π_{*}$ 에 대한 state-value function

$π_{*}$ 는 모든 policy $π$ 에 대해서 $π_{*} \geq π$ 를 만족한다.

$π \geq π^{'}$ if and only if $v_{π} (s) \geq v_{π^{'}} (s)$ for all $s \in S$

optimal action-value function

q_{*} (s, a) ≐ π max q_{π} (s, a)

Zzong's Notes

탐색기

value function

Value Function

Optimal Value Function

References

링크된 언급

목차

탐색기

value function

Value Function

Optimal Value Function

References

링크된 언급

함께 보면 좋은 글

목차