Notation
- 현재 production policy 그리고 test policy
- : contextual feature 에 대한 random variable
- 는 action 에 대한 확률 분포
B) Offline A/B Test
- 테스트를 수행하기 위해서는 behaviour policy 또는 logging policy 라고 불리는 것을 활용해 개의 i.i.d. samples 들을 셋팅한다.
- 테스트 수행의 목적은 새로운 policy 를 현재 시스템 와 비교하는 것이다.
- 를 활용해서 을 바로구할 수 있겠지만, 에서 얻은 데이터가 아무것도 없기 때문에 를 직접적으로 추정할 순 없다.
policy 의 expected reward
logging policy 로 얻은 reward 를 이용해서 target policy 의 expected reward 를 추정하는 방법이 importance sampling 또는 inverse propensity score 라고 불리는 방법이다.