정의
Importance sampling 이라고 불리며, IPS 는 expectation 을 계산하고자 하는 확률 분포 의 PDF 를 알고있지만 샘플들을 생성하기 어려울 때, 비교적 쉬운 PDF 인 에서 샘플을 생성하여 의 기댓값을 계산하는 방법이다.
A.1) 추천 시스템 맥락에서의 정의
Logging policy 가 해당 action 을 선택할 확률을 기준으로 삼고, test policy 가 해당 action 을 선택할 확률을 상대적인 가중치로 활용하여 expected weighted reward 을 계산
- : product(logging) policy 가 context 에서 action 를 선택할 확률
- : test policy 가 를 선택할 확률
B) 특징
-
를 구하는게 쉽지 않음
-
low bias and high variance
- 특히 두 policy 가 다를 수록, 가 크게 바뀌므로 variance 가 커짐
-
Low variance 를 위한 capped importance sampling
\displaystyle\hat{\mathcal{R}}