Non-stationary
- 시간이 지남에 따라 expected reward 가 바뀌는 이슈
1 min read
Burst induced Multi Armed Bandit for Learning Recommendation B) Abstract 해결하려는 문제: a non stationary and context free Multi Armed Bandit problem, 유저나 아이템에 대한 어떠한 정보가 없는 경우 C) Introduction 사용자의 행동을 두가지 형태...
...취했을 때 얻으려는 보상 $R$의 기대값과 최대한 동일하도록 유도하는 것이 목적이다. $A {t}\doteq\underset{a}{\arg\max}Q {t}(a)$ Tracking a non stationary Problem 지금까지 논의한 방법은 stationary 한 bandit 의 경우에서 적절하지만, reward 가 시간에 따라서 변하는 경우는 적절하지 않다. 이런 경우, 최근 보상에...