Policy Gradient

action-value function 은 action 선택에 더 이상 활용되지 않지만만 policy parameter vector $θ \in R^{d^{'}}$ 를 학습하는데 사용될수는 있음

π (a ∣ s, θ) = Pr {A_{t} = a \midS_{t} = s, θ_{t} = θ}

시간 $t$ 의 state $s$ 에 위치하는 agent $s$ 가 parameter $θ$ 를 통해 $a$ 를 선택할 확률을 의미
$a$ 를 선택할 때, 학습된 value function $\overset{v}{^} (s, w)$ 을 사용한다면, weight vector 는 $w \in R^{d}$ 가 됨
Policy parameter 는 performance $J (θ)$ 를 최대화하는 방향으로 나아간다.
$θ_{t + 1} = θ_{t} + α \nablaJ (θ_{t})$
$\nablaJ (θ_{t}) \in R^{d^{'}}$ 는 $θ_{t}$ 에 대한 gradient of the performance measure
Policy 와 value 둘 다에 대한 적절한 학습 방법을 actor-critic methods 라 부른다.
Actor: Learned policy
Critic: learned value Function (일반적으로 state-value function 을 의미한다.)

B) Why Policy Gradients?

Deep Q Learning 은 action space 가 크거나 연속일 경우 잘 동작하지 않는다.

예를 들어 자동주행차는 각 상태에서 (거의) 무한한 가짓수의 행동 (바퀴를 15°, 17.2°, 19.4° 회전 …) 을 선택을 할 수 있다. 이 경우에 가능한 행동에 대하여 Q 값을 구해야 된다.

Policy Gradient 는 value 를 통해 action 을 고르는 것이 아니라 action 자체를 선택한다. 그래서 state 에 대해서 정확한 값을 계산할 필요가 없다.

다시 말하면, Policy Network 는 가능한 모든 action 들에 대한 확률 행렬을 반환하기 때문에, 이 확률에 기반하여 action 을 무작위로 선택하거나 greedy 하게 선택 가능하다.

결과적으로 Exploration 과 Exploitation 에 대한 trade-off 균형을 직접 맞출 필요가 없어지므로, perceptual aliasing 문제를 해결할 수 있다.

C) Disadvantage of Policy Gradients

Local optimum 정책 경사는 많은 상황에서 전역 최적점이 아닌 지역 최적점에 수렴합니다.
느린 학습 속도 항상 최고점에 도달하려는 딥 Q- 러닝과 달리, 정책 경사는 천천히 수렴한다. 따라서 학습하는 데 더 오랜 시간이 걸릴 수 있습니다.

D) Policy Approximation and Its Advantages

state-action pair 에 대해 $h (s, a, θ) \in R$ 로 수치적인 선호도를 나타낼 수 있고, 각 상태에서 가장 높은 선호를 가지는 행동에 가장 높은 선택 확률이 주어진다.
- $π (a ∣ s, θ) ≐ \frac{e ^{h (s, a, θ)}}{\sum _{b} e ^{h (s, b, θ)}}$
- 이런 종류의 방법을 Softmax in action preferences 라 한다.
- 이러한 선호도는 임의의 형태로 parameter 화 시킬 수 있는데, 이때 $θ$ 는 가중치를 포함하는 vector 다.
- 단순히 선형 함수의 형태로 다음과 같이 표현할 수 있다.
- $h (s, a, θ) = θ^{⊤} x (s, a)$
  - 여기서 $x (s, a) \in R^{d^{'}}$ 는 단순한 feature vector 이다.
- soft-max 방식을 통해 policy 를 parameterize 할 때의 장점
- 1. approximate policy 가 점점 더 deterministic policy 에 가까워 진다.
  - 반대로, $ε$ -greedy 방식은 언제나 $ε$ 의 확률로 임의의 행동을 선택한다.
- 1. 임의의 확률로 행동을 선택하게 하는 것을 가능하게 한다.
  - optimal 정책이 stochastic 정책일지도 모른다 (가위바위보 게임 처럼)
- Policy parameterization 사용의 가장 중요한 이유 중 하나는 강화 학습의 optimal policy 형태를 찾기 위해 사전 지식을 제공해줄 수 있다는 점이다.

E) The Policy Gradient Theorem

policy parameterization 을 이용하면 action 을 선택할 확률이 parameter 에 의해 부드럽게 변한다.
- 반면 $ε$ -greedy 선택 방법은 추정하는 action 값의 미약한 변화가 급격한 action 선택 확률의 변동을 만들어낸다.
- 이러한 이유로 action-value 방식보다 policy-gradient 가 더 강력한 수렴성을 보장할 수 있다.
- Episodic 문제에서 성능 지표 (performance measure) $J (θ)$ 은 다음과 같이 정의된다.
- $J (θ) \doteqv_{π_{θ}} (s_{0})$
- 항상 똑같은 state (non-random) $s_{0}$ 에서 시작한다고 가정하였다.
- $v_{π_{θ}}$ 는 $θ$ 에 따라 결정되는 정책인 $π_{θ}$ 에 대한 true value function 이다.
- policy gradient theorem
- policy parameter 에 대한 performance 의 gradient 는 policy gradient theorem 에 의해서 다음과 같이 표현된다.
- $\nablaJ (θ) \propto s \sum μ (s) a \sum q_{π} (s, a) \nabla π (a \mids, θ)$
- 여기서 gradients 는 $θ$ 의 원소들에 대한 partial derivatives 의 column vectors 를 나타낸 것이다.
- 또한, $π$ 는 $θ$ 에 대한 policy 를 의미하고, $\propto$ 는 비례한다는 의미이다.
- 분포 $μ$ 는 policy $π$ 하에서의 on-policy distribution 이다.
REINFORCE: Monte Carlo Policy Gradient
Actor–Critic Method
Policy Gradient for Continuing Problems
- episode boundaries 가 없는 연속 문제에서는 매 time step 마다 보상의 평균 비율에 대한 performance 를 정의할 필요가 있다.
- $\displaystyleJ (θ) \doteqr (π) ≐ h \to \infty lim \frac{1}{h} t = 1 \sum h E [R_{t} \midS_{0}, A_{0 : t - 1} \sim π] = t \to \infty lim E [R_{t} \midS_{0}, A_{0 : t - 1} \sim π] = s \sum μ (s) a \sum π (a \mids) s^{'}, r \sum p (s^{'}, r \mids, a) r$
Policy Parameterization for Continuous Actions
Continuous actions 에서는 많은 actions 에 대해 선택할 확률보다는 확률 분포에 대한 통계 모델을 학습한다.
Gaussian 분포의 경우 $μ$ 와 $σ$ 를 찾아내는 parameter 를 두 개 활용한다.
$π (a \mids, θ) ≐ \frac{1}{σ ( s , θ ) 2 π} exp (- \frac{( a - μ ( s , θ ) ) ^{2}}{2 σ ( s , θ ) ^{2}})$
$μ : S \times R^{d^{'}} \to R$ and $σ : S \times R^{d^{'}} \to R^{+}$
표준 편차 $σ$ 의 경우 항상 양수여야 하므로, 선형 함수의 exponential 을 활용하는 것이 좋다.
$μ (s, θ) ≐ θ_{μ}^{⊤} x_{μ} (s) and σ (s, θ) ≐ exp (θ_{σ}^{⊤} x_{σ} (s))$

Zzong's Notes

탐색기

Policy Gradient

Policy Gradient

B) Why Policy Gradients?

C) Disadvantage of Policy Gradients

D) Policy Approximation and Its Advantages

E) The Policy Gradient Theorem

REINFORCE: Monte Carlo Policy Gradient

Actor–Critic Method

Policy Gradient for Continuing Problems

Policy Parameterization for Continuous Actions

F) References

링크된 언급

목차

탐색기

Policy Gradient

Policy Gradient

B) Why Policy Gradients?

C) Disadvantage of Policy Gradients

D) Policy Approximation and Its Advantages

E) The Policy Gradient Theorem

REINFORCE: Monte Carlo Policy Gradient

Policy Gradient for Continuing Problems

Policy Parameterization for Continuous Actions

F) References

링크된 언급

함께 보면 좋은 글

목차