SARSA
SARSA 는 state-value function 값 말고, action-value function 값을 이용하여 policy 를 improve 하는 temporal difference 방법이다.
즉, state-action 쌍으로 부터 다른 state-action 쌍으로 넘어가는 transition 을 고려한다. TD(0) 에서 state 대신 action 값을 이용한것이라 생각하면 된다.

여기서 가 terminal 이면, 은 0 으로 정한다.
매 학습마다 를 사용하기 때문에 SARSA 라 불린다.
B) Algorithm
