SARSA

SARSA 는 state-value function 값 말고, action-value function 값을 이용하여 policy 를 improve 하는 temporal difference 방법이다.

즉, state-action 쌍으로 부터 다른 state-action 쌍으로 넘어가는 transition 을 고려한다. TD(0) 에서 state 대신 action 값을 이용한것이라 생각하면 된다.

image-20201023172332416

여기서 가 terminal 이면, 은 0 으로 정한다.

매 학습마다 를 사용하기 때문에 SARSA 라 불린다.

B) Algorithm

image-20201023173337312|700

C) Related

D) References