Zzong's Notes

Home

❯

papers

❯

bandit

❯

Interactively Optimizing Information Retrieval Systems as a Dueling Bandits Problem

Interactively Optimizing Information Retrieval Systems as a Dueling Bandits Problem

2026년 6월 14일1 min read

Dueling Bandit Gradient Descent

|560

B) Related

Online learning to rank for information retrieval

Multileave Gradient Descent

C) References


링크된 언급

1
DRN - A Deep Reinforcement Learning Framework for News Recommendation

...해서, 제안한 방식은 user return 신호를 유저 feedback 정보로 활용한다. exploration 을 위해서 Interactively Optimizing Information Retrieval Systems as a Dueling Bandits Problem 를 활용한다. 이는 현재 추천 결과의 이웃 아이템을 candidate 로 하여 랜덤 추천을 진행하기 위해서 사용한다. 이...

  • Dueling Bandit Gradient Descent
  • B) Related
  • C) References