On the Equivalence between Non-negative Matrix Factorization and Probabilistic Latent Semantic Indexing
- paper link
- Abstract & Introduction (Summary)
- [PLSI](Probabilistic latent Semantic Indexing) 와 [NMF](non-negative matrix factorization) 는 동일한 목적 함수를 최적화하는 것임을 보임
- NMF 의 경우 I-divergence objective function (L1-normalization NMF)
- 다만, NMF 와 PLSI 는 서로 다른 알고리즘임
- 동일한 초기화 조건으로 시작해도, 서로 다른 solution(local minima) 으로 converge 하게됨
- NMF 와 PLSI converge 결과가 서로 다르지만, clustering 결과는 동일함
- 많은 실험 결과에서 local minima 에 근접한 결과를 얻는다면 서로 거의 동일한 결과를 보였고, 그렇지 않으면 서로 매우 다른 결과를 얻었음
- NMF 와 PLSI 를 서로 조합하면 local minima 를 벗어나는데 도움이 되는 하이브리드 method 를 만들어낼 수 있음
- hybrid 라는 것이 NMF 한번 수행하고, PLSI 수행하고를 반복하는 알고리즘
- Data representations of NMF and PLSI
- NMF: F=CHT
- F 는 stochastic normalized 된 word frequency: ∑ijFij=1
- 문서 dj 에 존재하는 word wi 의 normalized frequency
- C=(Cik),H=(Hjk) 는 non-negative matrices
- NMF 의 최소화 목적함수
- \displaystyleJNMF=∑i=1m∑j=1nFijlog(CHT)ijFij−Fij+(CHT)ij
- related to KL-Divergence
- PLSI
- PLSI 의 최대화 likelihood
- \displaystyleJPLSI=∑i=1m∑j=1nFij\logP(wi,dj)
- P(wi,dj)=k∑P(wi,dj\midzk)P(zk)=k∑P(wi\midzk)P(dj\midzk)P(zk)
- probability factors
- ∑i=1mp(wi\midzk)=1
- ∑j=1np(dj\midzk)=1
- ∑k=1Kp(zk)=1
- Equivalence of NMF and PLSI
- Theorem 1. PLSI 하고 NMF 는 동일하다.
- Proposition 1. PLSI 의 목적함수는 NMF 의 목적함수와 동일하다.
- Proposition 2. NMF 의 열 정규화 값은 probability factorization 과 동일하다.
- 각 Proposition 에 대한 증명은 생략함
C) References