Value-based Method

RL 커뮤니티에서는 Q-learning 으로 정의되며, bandit literature 에서는 Direct Method(DM) 라고 불린다.

context 와 학습된 모델이 주어진 상태에서 positive reward 가 주어질 확률이 가장 높은 action 을 취하는 방법이다.

A.1) 단점

  • model misspecification in supervised learning
  • 수집된 학습 데이터가 모델에 의해 크게 영향을 받을때

A.2) 특징

importance sampling 보다 일반적으로 variance 가 낮지만, 일반적으로 biased 하다.

Comparison with inverse propensity score and value-based method

value-based method 의 경우 logging policy 모델에 의존하지 않고, context 가 주어진 action 의 reward 에 의존함

B) Related

C) References

http://math.uchicago.edu/~may/REU2019/REUPapers/Kim,SangHoon.pdf