Abstract

본 논문은 hierarchical Poisson matrix factorization(HPF) 모델을 제안.

HDF?

HDF 는 sparse user & item matrix 를 학습하는데 목적을 두었다. 또한, HDF 는 explicit 그리고 implicit feedback 을 모두 다룰 수 있다.

또한 대용량 데이터에서 posterior inference 를 approximate 할 수 잇는 a variational algorithm 을 제안했다.

실험에서 non-negative matrix factorization 이나 PMF 그리고 topic modeling 대상으로 모두 성능상 우위를 보인다고 한다.

Introduction

Poisson factorization is a probabilistic model of users and items.

Poisson factorization 는 non-negative matrix factorization 에서 파생되었음

GaP - a factor model for discrete data

Poisson Recommendation

유저 $u$ 의 아이템 $i$ 에 대한 상호작용 $y_{u i}$ 은 implicit feedback 으로 가정 (1 값은 클릭, 0 은 무시)
그리고 $y_{u i}$ 는 Poisson 으로 모델링: $y_{u i} \sim Poisson (θ_{u}^{⊤} β_{i})$
- 각 아이템 $i$ 는 $K$ 차원의 latent vector $β_{i}$ (item attributes) 로 표현되고, 각 사용자 $u$ 는 $K$ 차원의 latent vector $θ_{u}$ (user preferences) 로 표현됨
- 위 식은 Probabilistic Matrix Factorization 의 variants 로, 각 user 와 Item 의 weight 가 양수고, Gaussian 이 Poisson 으로 바뀐것으로 생각할 수 있음
Gamma prior 를 계층적으로 설계하여, 사용자들의 diversity 를 확인할 수 있도록 했음
- Gamma priors on the latent attributes and latent preferences
the generative process of the hierarchical Poisson factorization model (HPF) is as follows:
- For each user $u$ :
  - Sample activity $ξ_{u} \sim Gamma (a^{'}, a^{'} / b^{'})$
  - For each component $k$ , sample preference $θ_{u k} \sim Gamma (a, ξ_{u})$
- For each item $i$ :
  - Sample popularity $η_{i} \sim Gamma (c^{'}, c^{'} / d^{'})$
  - $β_{ik} \sim Gamma (c, η_{i})$
- 각 사용자 $u$ 와 아이템 $i$ 에 대해, rating 을 sampling 한다: $y_{u i} \sim Poisson (θ_{u}^{⊤} β_{i})$
유저 당 latent 그리고 아이템 당 structure 에 대한 조건부 분포 $p (θ_{1 : N} β_{1 : M} ∣ y)$ 를 추정하기 위해, variational methods 를 이용하여 posterior inference 를 수행한다.
posterior 를 구한 이후, HPF 를 통한 prediction 은 다음과 같이 계산된다: $score_{u i} = E [θ_{u}^{⊤} β_{i} ∣ y]$
Properties of HPF
- HPF captures sparse factors
- HPF models the long-tail of users and items
  - posterior predictive check(PPC)
    - a technique for model assessment from the Bayesian statistics literature
- HPF downweights the effect of zeros
  - Classical MF is based on Gaussian likelihoods (i.e., squared loss), which gives equal weight to consumed and unconsumed items
- Fast inference with sparse matrices
  - $p (y_{u i} ∣ θ_{u}, β_{i}) = (θ_{u}^{⊤} β_{i})^{y} exp {- θ_{u}^{⊤} β_{i}} / y_{u i}!$
```
  - $0!=1$
```

$lo g p (y ∣ θ, β) = {y_{u i} > 0} \sum y_{u i} lo g (θ_{u}^{⊤} β_{i}) - lo g y_{u i}! - (u \sum θ_{u})^{⊤} (i \sum β_{i})$

Inference with variational method
As for many Bayesian models, the exact posterior is computationally intractable.
We show how to efficiently approximate the posterior with mean-field variational inference
Variational inference for Poisson factorization
모든 사용자와 아이템에 대해서, user parameters $γ_{u}, κ_{u}^{rte}$ 그리고 item parameters $λ_{i}, τ_{i}^{rte}$ 는 prior 로 사용하기 위해 초기화
user activity 그리고 item popularity shape parameters 는 다음과 같이 설정: $κ_{u}^{shp} = a^{'} + K a; τ_{i}^{shp} = c^{'} + K c$
- $a^{'}, a, c, c^{'}$ 은 모두 0.3 으로 설정
이후 수렴될때까지 아래의 과정을 반복
- $y_{u i} > 0$ 를 만족하는 각 사용자/아이템에 대하여,다음의 [multinomial](multinomial distribution) 을 업데이트

: $ϕ_{u i} \propto exp {Ψ (γ_{u k}^{shp}) - lo g γ_{u k}^{rte} + Ψ (λ_{ik}^{shp}) - lo g λ_{ik}^{rte}}$

* 각 사용자에 대해, user weight 와 activity parameters를 업데이트

	* $\gamma_{uk}^{\mathrm{shp}}=a+\sum_{i}y_{ui}\phi_{uik}$

	* $\displaystyle\gamma_{uk}^{\mathrm{rte}}=\frac{\kappa_{u}^{\mathrm{shp}}}{\kappa_{u}^{\mathrm{rte}}}+\sum_{i}\lambda_{ik}^{\mathrm{shp}}/\lambda_{ik}^{\mathrm{rte}}$

	* $\displaystyle\kappa_{u}^{\mathrm{rte}}=\frac{a^{\prime}}{b^{\prime}}+\sum_{k}\frac{\gamma_{uk}^{\mathrm{shp}}}{\gamma_{uk}^{\mathrm{rte}}}$

		* $b^{\prime}=1$로 설정

* 각 아이템에 대해, item weight와 popularity parameter들을 업데이트

	* $\lambda_{ik}^{\mathrm{shp}}=c+\sum_{u}y_{ui}\phi_{uik}$

	* $\displaystyle\lambda_{ik}^{\mathrm{rte}}=\frac{\tau_{i}^{\mathrm{shp}}}{\tau_{i}^{\mathrm{rte}}}+\sum_{u}\gamma_{uk}^{\mathrm{shp}}/\gamma_{uk}^{\mathrm{rte}}$

	* $\displaystyle\tau_{i}^{\mathrm{rte}}=\frac{c^{\prime}}{d^{\prime}}+\sum_{k}\frac{\lambda_{ik}^{\mathrm{shp}}}{\lambda_{ik}^{\mathrm{rte}}}$

		* $d^{\prime}=1$로 설정

* 수렴 여부는 validation set에 대한 예측 precision으로 확인

	* 구체적으로는 validation ratings에 대한 predictive log likelihood의 평균을 계산하고, 이전 iteration의 log likelihood와 비교했을 때 변화가 0.0001% 미만이면 종료

References

paper link

Zzong's Notes

탐색기

Scalable Recommendation with Poisson Factorization

Abstract

Introduction

Poisson Recommendation

Properties of HPF

Inference with variational method

References

링크된 언급

목차

탐색기

Scalable Recommendation with Poisson Factorization

Abstract

Introduction

Related Work

Poisson Recommendation

Properties of HPF

Inference with variational method

Related

References

링크된 언급

함께 보면 좋은 글

목차