Empirical Evaluation: Live Experiments

  • YouTube 에 SARSA-TS 알고리즘을 실험
  • candidate -> ranker 를 거치게 되는데, ranker 의 scoring 함수에서 사용하는 myopic(근시안적) engagement 측정값을 LTV estimate 로 변경함
    • candidate scoring 쪽은 그대로 유지