Policy Improvement (theorem)

현재 policy 보다 더 좋은 policy 는 어떻게 찾을까?

만약 state 에서 를 선택하고 를 따르는 것이 에서 바로 를 따르는 것보다 좋은 선택이라면, 를 만날때마다 를 선택하는 것이 보다 좋은 policy 가 될 것이다.

다른 말로 하면, 만약 를 만족할 경우, 우리는 에서 를 선택하고 나머지 states 에서는 를 따름으로써 더 나은 policy 를 얻을 수 있다.

위 내용을 조금 더 일반화해보자.

만약 어떤 두 policy 가 존재하고, 모든 에 대해서 다음을 만족한다고 하자.

여기서 에서 취할수 있는 policy 의 action 을 의미한다. 그리고 위 식을 만족하는 보다 반드시 모든 에 대해서 better or 같은 policy 다.

이제, policy 를 향상시키기 위해서는 각 state 에 대하여 action-value function 를 최대화 할 수 있는 action 을 선택하는 것을 고르면 된다 (일종의 action 따라하기).

1.1. 증명

“ 가장 큰 를 보이는 를 선택하기만 해도 를 찾아낼 수 있다 (i.e. ) ” 는 주장에 대한 증명은 다음과 같다.

임을 가정하고, 이를 활용하여 계속 확장해 나가면서 로 수렴할때 까지 계산하면 된다.

이러한 결론은 다음과 같은 greedy policy 의 전략으로 귀결된다.

다수의 action 이 허용되는 stochastic case 에서는 하나만 선택하지 않고, 동일한 value 값을 가지는 모든 에 대해 비율을 나눠준다. 예를 들어 grid 의 경우 동서남북 중, 남북이 같다면 0.5, 0.5 비율로

이렇게 기존의 policy 에 대한 value function 을 이용하여 greedy 하게 action 을 선택하는 방법을 policy improvement 라고 한다.

이 서로 같다고 해보자. 즉, 인 경우, 모든 에 대해서 다음을 만족한다.

그런데, 위의 식은 그냥 Bellman optimality equation 이다. 즉, 는 반드시 가 된다.

2. Related

3. References