Counterfactual Learning
추천 시스템의 학습은 supervised learning 과 다르다. 추천 시스템은 오직 사용자가 선택한 결과만을 가지고 학습하기 때문에, log data 는 partial information 형식을 지닌다. 반면 지도 학습은 그 사용자에 대해서 가장 적합한 best ranking items 전체를 학습하기 원한다 (from full-information feedback).
Related
- Counterfactual Risk Minimization: Learning from Logged Bandit Feedback
- Counterfactual learning for recommender system