• Tags
  • paper link
  • notations
    • size
      • : topic size, : document size, : position size of document , : term size
    • probability
      • 각 단어 에 대한 확률 분포 가 존재
        • and
      • 각 a distribution θd over a fixed number of topics T for each document d
        • and
  • generation process
    • 어떤 사람이 문서 에 글을 쓴다고 해보자. 문서 에 있는 각 token position 에 대해 어떤 term 을 작성할지 정해야 한다.
      • 첫째로, - 번째 position 에 대해, 분포를 기반해서 어떤 topic 을 주제로 쓸지 정한다.
        • 이 단계에서는 - 면을 가진 주사위를 굴리는 것과 동일하다. 왜냐하면 분포가 multinomial distribution 를 따르기 때문이다.
      • 둘째로, 정해진 topic 에 대해서 에 기반해서 어떤 term 을 작성할지 정해야 한다.
        • 첫번째 단계와 비슷하게, - 면을 가진 주사위를 굴리는 것과 동일하다.
    • 위와 같은 두 단계는 데이터셋의 모든 문서들과 모든 token position 에 대해 반복된다.
    • 요약된 generation process
      • For each document
        • For each token position Choose a topic ∼ Multinomial() Choose a term ∼ Multinomial()
  • 문서 의 position 에서 term 가 나타날 확률은 다음과 같다 :
  • 그리고 전체 데이터셋 에 대한 joint likelihood 는 다음과 같다 :
    • 는 문서 에서 term 가 나타난 빈도 수를 의미
    • we wish to obtain the parameters that can maximize the above likelihood.
  • objective function :
    • the second and the third part of the equation is [Lagrange Multipliers](Lagrange multiplier method) to guarantee Multinomial parameters in range [0, 1].
    • It is difficult to directly optimize the above equation due to the log sign is out of a summation.
  • EM algorithm of PLSA
    • E-step: 데이터와 현재 parameters 의 값이 주어진 상태에서 the posterior distribution of hidden variables 를 계산
      • \displaystyle\begin{aligned}\left\langleR_{\left(w_{di},k\right)}\right\rangle&=p\left(R_{\left(w_{di,},k\right)}=1\mid\mathcal{W},\Theta,\Phi\right)=\frac{p\left(\mathcal{W},R_{\left(w_{di},k\right)}=1\mid\Theta,\Phi\right)}{\sum_{k}^{T}p\left(\mathcal{W},R_{\left(w_{di},k\right)}=1\mid\Theta,\Phi\right)}\\&=\frac{p\left(w_{di},R_{\left(w_{di},k\right)}=1\mid\theta_{d},\Phi\right)}{\sum_{k}^{T}p\left(w_{di},R_{\left(w_{di},k\right)}=1\mid\theta_{d},\Phi\right)}=\frac{p\left(w_{di}\mid\phi_{\left(k,w_{di}\right)}\right)p\left(k\mid\theta_{d}\right)}{\sum_{k}^{T}p\left(w_{di}\mid\phi_{\left(k,w_{di}\right)}\right)p\left(k\mid\theta_{d}\right)}\\&=\frac{\phi_{\left(k,w_{di})\right.}\theta_{(d,k)}}{\sum_{k}^{T}\phi_{\left(k,w_{di}\right)}\theta_{(d,k)}}\end{aligned}
    • M-step: hidden variables 의 현재 설정을 기반으로 parameter 들의 새로운 optimal 값들을 획득