Burst-induced Multi-Armed Bandit for Learning Recommendation

B) Abstract

해결하려는 문제: a non-stationary and context-free Multi-Armed Bandit problem, 유저나 아이템에 대한 어떠한 정보가 없는 경우

C) Introduction

사용자의 행동을 두가지 형태로 나눔: loyal, curious

C.1) Comparing to prior Work

  • context-free: only uses the observed rewards
  • context-aware: require user or item features
  • reward 분포에 존재하는 audience(user) 들의 curiosity 영향을 고려하지 않음
  • 본 논문에서는 추천 환경이 서로 다른 두가지 상태 (loyal, curious) 로 나뉘어 져있다고 가정하고, 이를 두 Poisson point process 의 mixture 로 모델링함으로써 상태를 표현함
  • Related work
    • non-stationary MAB
      • 두 가지 major class 들이 존재: adversarial MAB and piece-wise stationary MAB
        • adversarial MAB:: an adversary(적대자) 가 payoff generation 을 control
        • piece-wise stationary MAB:: 특정 time 구간에서 reward generation 이 stationary 한 경우
  • Problem Formulation
    • 두 stochastic point process 들을 mixture
      • homogeneous Poisson process (HPP) with intensity:
        • rolay audience 를 모델링
      • a piece-wise homogeneous Poisson process (PW-HPP) with intensity:
        • curious audience 를 모델링
        • 이라는 관찰되지 않은 임의의 특정 timestamps 구간 에서 transition 이 발생한다고 가정
        • 또한, 구간 내에서 라는 unique intensity 값이 있다고 생각
          • 가장 중요한 가정은 값에 따라서 가 번갈아 발생하는 것 (very low and very high intensity)
    • timestamp 에 해당하는 state 는 binary 로 표현되며, 현재 가장 dominate 되는 audience dyamic 에 따라 정의됨
      • : calm, : bursty
      • 정확히는
  • Burst-induced MAB
    • Thompson sampling
      • TS 알고리즘은 stationary stochstic MAB 문제에 대한 접근법이다.
      • Remark 1: exploration 이 확률적으로 해결됨
      • Remark 2: 어떤 arm 에 대한 beta 분포의 parameter 가 일 때, Uniform (0, 1) 을 따른다.
    • BMAB (Burst-induced Multi-Armed Bandit) algorithm
      • 개의 arm 에 대하여 두 states(loyal & curious) 에 대한 beta 분포 (prior & posterior) 를 따로 둠
        • ,
    • A realistic state detector
      • Notation
        • timestamps 집합의 윈도우 크기 (만약, 이라면, )
        • confidence parameter 가 포함된 Gamma distributionquantile function 을 다음과 같이 정의

:

	* 해당 감마 분포의 $X$는 shape $\mu$ 그리고 scale $\rho$를 따름

	* 실험에서는 $\delta=0.95$로 설정함
  • 에 발생한 event 의 state 를 판단하기 위해서는 hypothesis test 를 수행

: timestamps 집합 가 intensity 에 의한 uniform Poisson process 에 의해 생성되었는지?

* 즉, $\Delta_{i}=t_{i}-t_{i-\Delta+1}$ 는 shape 가 $\Delta-1$ 이고 scale이 $\lambda_L$인 [[Gamma distribution]]를 따른다는 의미가 된다.

* 
  •   * 
    

C.2) Burst-induced Multi-Armed Bandit for Learning Recommendation

C.3) 초록 (ABSTRACT)

본 논문에서 다루는 문제는 non-stationary 하고 context-free 한 Multi-Armed Bandit 문제입니다. 이는 유저나 아이템에 대한 어떠한 정보도 없는 상황을 가정합니다.

C.4) 서론 (Introduction)

C.4.1) 사용자 행동 유형

사용자의 행동은 크게 두 가지 형태로 구분할 수 있습니다: loyal(충성적인) 과 curious(호기심 많은) 유형입니다.

C.4.2) 기존 연구와의 비교

  • context-free 방식은 관측된 보상만을 활용합니다.
  • context-aware 방식은 유저 또는 아이템의 특성을 필요로 합니다.
  • 기존 연구들은 보상의 분포에 영향을 미치는 audience(user) 의 curiosity 를 고려하지 않았습니다.
  • 본 논문에서는 추천 환경이 서로 다른 두 가지 상태 (loyal, curious) 로 나뉘어 있다고 가정하며, 이를 두 개의 Poisson point process mixture 로 모델링하여 상태를 표현합니다.
  • non-stationary MAB
    • 대표적인 두 가지 클래스가 존재합니다: adversarial MAB 와 piece-wise stationary MAB
      • adversarial MAB: 적대자가 payoff 생성을 제어하는 경우
      • piece-wise stationary MAB: 특정 시간 구간 내에서 reward 생성이 stationary 인 경우

C.4.2.2) 문제 정의 (Problem Formulation)

  • 두 개의 stochastic point process 를 혼합하여 모델링합니다.
    • homogeneous Poisson process (HPP): intensity → loyal audience 를 모델링
    • piece-wise homogeneous Poisson process (PW-HPP): intensity → curious audience 를 모델링 개의 관찰되지 않은 임의 타임스탬프 에서 transition 이 발생한다고 가정합니다. 각 구간 내에는 고유한 intensity 가 존재합니다. 중요한 가정은, 값에 따라 또는 인 상태가 번갈아 나타난다는 것입니다 (즉, 매우 낮거나 매우 높은 intensity).
  • 각 타임스탬프 에서 해당 상태는 binary 로 구분되며, 현재 가장 dominant 한 audience dynamic 에 의해 결정됩니다.
    • : calm
    • : bursty
    • 보다 정확하게는,

C.4.3) Burst-induced MAB

C.4.3.1) Thompson sampling

  • TS 알고리즘은 stationary stochastic MAB 문제에서 널리 사용되는 방법입니다.
    • Remark 1: 탐색 (exploration) 을 확률적으로 해결합니다.
    • Remark 2: arm 에 대한 beta 분포 파라미터가 일 때, 분포를 따릅니다.

C.4.3.2) BMAB (Burst-induced Multi-Armed Bandit) 알고리즘

  • 각 arm( 개) 에 대해 두 개의 상태 (loyal & curious) 에 각각 beta 분포 (prior & posterior) 를 따로 유지합니다.
    • ,

C.4.3.3) 현실적인 상태 판별 (state detector)

C.4.3.3.1) Notation
  • 타임스탬프 집합의 윈도우 크기: ( 라면, )

  • 신뢰도 파라미터 (confidence parameter) 을 사용하는 Gamma distributionquantile function 정의:

\mathbb{P}\left(X \leq q_\delta(\mu,\rho)\right) = 1-\delta

여기서 Gamma 분포 $X$는 shape이 $\mu$, scale이 $\rho$ 실험에서는 $\delta=0.95$로 설정함. ##### C.4.3.3.2) 이벤트 State 판별을 위한 [[hypothesis test]] 특정 시점($t_i$)에 발생한 이벤트가 어떤 state인지 판단하기 위해서는 다음과 같은 검정을 수행합니다: 타임스탬프 집합 $\mathcal{T}_{\Delta,i} = \left\{t_{i-\Delta+1}, t_{i-\Delta+2}, ..., t_i\right\}$ 이 intensity $\lambda_L$인 uniform Poisson process에 의해 생성됐는지 판단. 즉, $\Delta_i = t_i-t_{i-\Delta+1}$ 값이 shape $(\Delta-1)$ 및 scale $(\lambda_L)$인 [[Gamma distribution]]을 따른다는 것을 검증하게 됩니다. ![](https://firebasestorage.googleapis.com/v0/b/firescript-577a2.appspot.com/o/imgs%2Fapp%2Fwoosung_graph%2FW37TcdGuSH.png?alt=media&token=6816c9dd-390a-4346-819d-0e4d52bc993d) 위와 같이 본 논문에서는 추천 시스템 환경 내 다양한 사용자 행동 패턴(loyal/curious)에 기반하여 발생하는 burst 현상을 수학적으로 모델링하고 이를 활용해 더욱 적응적인 Multi-Armed Bandit 전략(BMAB)을 제안하였습니다. 또한 현실적인 상황에서도 적용 가능한 상태 판별 기법으로 실용성을 높였습니다.n(0,1)$을 사용하는 [[Gamma distribution]]의 [[quant서 해당 상태는 binary로 구ationary M