Notation

B) Offline A/B Test

테스트를 수행하기 위해서는 behaviour policy 또는 logging policy $π_{p}$ 라고 불리는 것을 활용해 $n$ 개의 i.i.d. samples $S_{n} = {(x_{i}, a_{i}, r_{i}) : i \in [n]}$ 들을 셋팅한다.
테스트 수행의 목적은 새로운 policy $π_{t}$ 를 현재 시스템 $π_{p}$ 와 비교하는 것이다.
$\hat{R} (S_{n})$ 를 활용해서 $E_{π_{p}} [R]$ 을 바로구할 수 있겠지만, $π_{t}$ 에서 얻은 데이터가 아무것도 없기 때문에 $E_{π_{t}} [R]$ 를 직접적으로 추정할 순 없다.

policy $π$ 의 expected reward

E_{π_{p}} [R] = E [R ∣ A] π_{p} (A ∣ X) P (X)

logging policy 로 얻은 reward 를 이용해서 target policy 의 expected reward 를 추정하는 방법이 importance sampling 또는 inverse propensity score 라고 불리는 방법이다.