SARSA

SARSA 는 state-value function 값 말고, action-value function 값을 이용하여 policy 를 improve 하는 temporal difference 방법이다.

즉, state-action 쌍으로 부터 다른 state-action 쌍으로 넘어가는 transition 을 고려한다. TD(0) 에서 state 대신 action 값을 이용한것이라 생각하면 된다.

여기서 $S_{t + 1}$ 가 terminal 이면, $Q (S_{t + 1}, A_{t + 1})$ 은 0 으로 정한다.

매 학습마다 $(S_{t}, A_{t}, R_{t + 1}, S_{t + 1}, A_{t + 1})$ 를 사용하기 때문에 SARSA 라 불린다.

Zzong's Notes