Policy Improvement (theorem)

현재 policy $π$ 보다 더 좋은 policy 는 어떻게 찾을까?

만약 state $s$ 에서 $a$ 를 선택하고 $π$ 를 따르는 것이 $s$ 에서 바로 $π$ 를 따르는 것보다 좋은 선택이라면, $s$ 를 만날때마다 $a$ 를 선택하는 것이 $π$ 보다 좋은 policy 가 될 것이다.

다른 말로 하면, 만약 $q_{π} (s, a) > v_{π} (s)$ 를 만족할 경우, 우리는 $s$ 에서 $a$ 를 선택하고 나머지 states 에서는 $π$ 를 따름으로써 더 나은 policy 를 얻을 수 있다.

위 내용을 조금 더 일반화해보자.

만약 어떤 두 policy $π$ 와 $π^{'}$ 가 존재하고, 모든 $s \in S$ 에 대해서 다음을 만족한다고 하자.

q_{π} (s, π^{'} (s)) \geq v_{π} (s)

여기서 $π^{'} (s)$ 는 $s$ 에서 취할수 있는 policy $π^{'}$ 의 action 을 의미한다. 그리고 위 식을 만족하는 $π^{'}$ 는 $π$ 보다 반드시 모든 $s \in S$ 에 대해서 better or 같은 policy 다.

v_{π^{'}} (s) \geq v_{π} (s)

이제, policy $π$ 를 향상시키기 위해서는 각 state 에 대하여 action-value function 를 최대화 할 수 있는 action 을 선택하는 것을 고르면 된다 (일종의 $π^{'}$ action 따라하기).

π^{'} (s) ≜ ar g a max q_{π} (s, a)

1.1. 증명

“ 가장 큰 $q_{π} (s, a)$ 를 보이는 $a$ 를 선택하기만 해도 $π^{'}$ 를 찾아낼 수 있다 (i.e. $v_{π} (s) = v_{π^{'}} (s)$ ) ” 는 주장에 대한 증명은 다음과 같다.

$q_{π} (s, π^{'} (s)) \geq v_{π} (s)$ 임을 가정하고, 이를 활용하여 계속 확장해 나가면서 $v_{π}^{'} (s)$ 로 수렴할때 까지 계산하면 된다.

v_{π} (s) ⋮ \leq q_{π} (s, π^{'} (s)) = E [R_{t + 1} + γ v_{π} (S_{t + 1}) ∣ S_{t} = s, A_{t} = π^{'} (s)] = E_{π^{'}} [R_{t + 1} + γ v_{π} (S_{t + 1}) ∣ S_{t} = s] \leq E_{π^{'}} [R_{t + 1} + γ q_{π} (S_{t + 1}, π^{'} (S_{t + 1})) ∣ S_{t} = s] = E_{π^{'}} [R_{t + 1} + γ E [R_{t + 2} + γ v_{π} (S_{t + 2}) ∣ S_{t + 1}, A_{t + 1} = π^{'} (S_{t + 1})] ∣ S_{t} = s] = E_{π^{'}} [R_{t + 1} + γ R_{t + 2} + γ^{2} v_{π} (S_{t + 2}) ∣ S_{t} = s] \leq E_{π^{'}} [R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + γ^{3} v_{π} (S_{t + 3}) ∣ S_{t} = s] \leq E_{π^{'}} [R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + γ^{3} R_{t + 4} + \dots ∣ S_{t} = s] = v_{π^{'}} (s)

이러한 결론은 다음과 같은 greedy policy $π^{'}$ 의 전략으로 귀결된다.

π^{'} (s) ≐ a ar g max q_{π} (s, a) = a ar g max E [R_{t + 1} + γ v_{π} (S_{t + 1}) ∣ S_{t} = s, A_{t} = a] = a ar g max s^{'}, r \sum p (s^{'}, r ∣ s, a) [r + γ v_{π} (s^{'})]

다수의 action 이 허용되는 stochastic case 에서는 하나만 선택하지 않고, 동일한 $q$ value 값을 가지는 모든 $a$ 에 대해 비율을 나눠준다. 예를 들어 grid 의 경우 동서남북 중, 남북이 같다면 0.5, 0.5 비율로

이렇게 기존의 policy 에 대한 value function 을 이용하여 greedy 하게 action 을 선택하는 방법을 policy improvement 라고 한다.

$π$ 와 $π^{'}$ 이 서로 같다고 해보자. 즉, $v_{π} = v_{π^{'}}$ 인 경우, 모든 $s \in S$ 에 대해서 다음을 만족한다.

v_{π^{'}} (s) = a max E [R_{t + 1} + γ v_{π^{'}} (S_{t + 1}) ∣ S_{t} = s, A_{t} = a] = a max s^{'}, r \sum p (s^{'}, r ∣ s, a) [r + γ v_{π^{'}} (s^{'})]

그런데, 위의 식은 그냥 Bellman optimality equation 이다. 즉, $v_{π}^{'}$ 는 반드시 $v_{*}$ 가 된다.