Offline Evaluation

현실에 직접 적용하는 대신 정해진 데이터셋에서 성능 평가를 하는 것

일반적으로 사용자들이 관측하지 않은 콘텐츠에 대한 반응을 유추하여 평가하나, 실제 데이터를 사용하지 않았기 때문에 정확한 성능 비교가 어렵다.

For Ranking Model

Offline Replay Experimentation

핀터레스트에서 사용하는 오프라인 테스트 환경이다.

다음 두 가지를 포함한다고 한다.

  1. counterfactual serving simultation
  2. reward estimation

Related

online evaluation

References