Value-based Method

RL 커뮤니티에서는 Q-learning 으로 정의되며, bandit literature 에서는 Direct Method(DM) 라고 불린다.

context 와 학습된 모델이 주어진 상태에서 positive reward 가 주어질 확률이 가장 높은 action 을 취하는 방법이다.

A.1) 단점

importance sampling 보다 일반적으로 variance 가 낮지만, 일반적으로 biased 하다.

$V_{IPS} (π, D) = (c, a, r) \in D \sum r \cdot \frac{π ( a \midc )}{π _{0} ( a ∣ c )}$
$VDM(π,D)=(c,a,r)∈D∑a′∈A∑π(a′\midc)⋅r(a′,c)$
- $r (a, c) \approx E [R ∣ C = c, A = a]$

value-based method 의 경우 logging policy 모델에 의존하지 않고, context 가 주어진 action 의 reward 에 의존함