Tutorial on Probablistic Latent Semantic Analysis

Tags
- Probabilistic latent Semantic Indexing, PLSI, multinomial distribution
paper link
- https://arxiv.org/pdf/1212.3900.pdf
notations
- size
  - $T$ : topic size, $D$ : document size, $N_{d}$ : position size of document $d$ , $V$ : term size
- probability
  - 각 단어 $V$ 에 대한 확률 분포 $ϕ_{k}$ 가 존재
    - $p (w \midk) = ϕ_{(k, w)}$ and $\sum_{w}^{V} ϕ_{(k, w)} = 1$
  - 각 a distribution θd over a fixed number of topics T for each document d
    - $p (k \midd) = θ_{(d, k)}$ and $\sum_{k}^{T} θ_{(d, k)} = 1$
generation process
- 어떤 사람이 문서 $d$ 에 글을 쓴다고 해보자. 문서 $d$ 에 있는 각 token position 에 대해 어떤 term 을 작성할지 정해야 한다.
  - 첫째로, $i$ - 번째 position 에 대해, $θ_{d}$ 분포를 기반해서 어떤 topic 을 주제로 쓸지 정한다.
    - 이 단계에서는 $T$ - 면을 가진 주사위를 굴리는 것과 동일하다. 왜냐하면 $θ_{d}$ 분포가 multinomial distribution 를 따르기 때문이다.
  - 둘째로, 정해진 topic $k$ 에 대해서 $ϕ_{k}$ 에 기반해서 어떤 term 을 작성할지 정해야 한다.
    - 첫번째 단계와 비슷하게, $V$ - 면을 가진 주사위를 굴리는 것과 동일하다.
- 위와 같은 두 단계는 데이터셋의 모든 문서들과 모든 token position 에 대해 반복된다.
- 요약된 generation process
  - For each document $d$
    - For each token position $i$ Choose a topic $z$ ∼ Multinomial( $θ_{d}$ ) Choose a term $w$ ∼ Multinomial( $φ_{z}$ )
문서 $d$ 의 position $i$ 에서 term $w$ 가 나타날 확률은 다음과 같다 : $\displaystylep (d_{i} = w ∣ Φ, θ_{d}) = \sum_{z = k}^{T} ϕ_{(z, w)} θ_{(d, z)}$
그리고 전체 데이터셋 $W$ 에 대한 joint likelihood 는 다음과 같다 : $p (W ∣ Φ, Θ) = d \prod D i \prod N_{d} z = k \sum T ϕ_{(z, w)} θ_{(d, z)} = d \prod D w \prod V (z = k \sum T ϕ_{(z, w)} θ_{(d, z)})^{n (d, w)}$
- $n (d, w)$ 는 문서 $d$ 에서 term $w$ 가 나타난 빈도 수를 의미
- we wish to obtain the parameters that can maximize the above likelihood.
objective function : $argΦ,Θmax[\logp(W∣Φ,Θ)+d∑Dλd(1−z∑Tθ(d,z))+z∑Tσk(1−w∑Vϕ(z,w))]$
- the second and the third part of the equation is [Lagrange Multipliers](Lagrange multiplier method) to guarantee Multinomial parameters in range [0, 1].
- It is difficult to directly optimize the above equation due to the log sign is out of a summation.
- $L = \logp (W ∣ R, Φ, Θ) = d \sum D d i \sum N_{d} z \sum T R_{(w_{d i}, z)} (lo g ϕ_{(z, w_{d i})} + lo g θ_{(d, z)})$
EM algorithm of PLSA
- E-step: 데이터와 현재 parameters 의 값이 주어진 상태에서 the posterior distribution of hidden variables 를 계산
  - $\displaystyle\begin{aligned}\left\langleR_{\left(w_{di},k\right)}\right\rangle&=p\left(R_{\left(w_{di,},k\right)}=1\mid\mathcal{W},\Theta,\Phi\right)=\frac{p\left(\mathcal{W},R_{\left(w_{di},k\right)}=1\mid\Theta,\Phi\right)}{\sum_{k}^{T}p\left(\mathcal{W},R_{\left(w_{di},k\right)}=1\mid\Theta,\Phi\right)}\\&=\frac{p\left(w_{di},R_{\left(w_{di},k\right)}=1\mid\theta_{d},\Phi\right)}{\sum_{k}^{T}p\left(w_{di},R_{\left(w_{di},k\right)}=1\mid\theta_{d},\Phi\right)}=\frac{p\left(w_{di}\mid\phi_{\left(k,w_{di}\right)}\right)p\left(k\mid\theta_{d}\right)}{\sum_{k}^{T}p\left(w_{di}\mid\phi_{\left(k,w_{di}\right)}\right)p\left(k\mid\theta_{d}\right)}\\&=\frac{\phi_{\left(k,w_{di})\right.}\theta_{(d,k)}}{\sum_{k}^{T}\phi_{\left(k,w_{di}\right)}\theta_{(d,k)}}\end{aligned}$
- M-step: hidden variables 의 현재 설정을 기반으로 parameter 들의 새로운 optimal 값들을 획득
  - $θ_{(d, z)} = \frac{\sum _{d_{i}} < R _{(w_{d_{i}} z)} >}{N _{d}}$
  - $ϕ_{(z, w)} = \frac{\sum _{d}^{D} \sum _{d i}^{N_{d}} < R _{(w_{d i}, z) >} I ( w _{d i} = w )}{\sum _{w^{'}}^{V} \sum _{d}^{D} \sum _{d i}^{N_{d}} < R _{(w_{d i}, z) >} I ( w _{d i} = w ^{'} )}$

Zzong's Notes

탐색기

Tutorial on Probablistic Latent Semantic Analysis

링크된 언급

탐색기

Tutorial on Probablistic Latent Semantic Analysis

링크된 언급

함께 보면 좋은 글