On the Equivalence between Non-negative Matrix Factorization and Probabilistic Latent Semantic Indexing

  • paper link
  • Abstract & Introduction (Summary)
    • [PLSI](Probabilistic latent Semantic Indexing) 와 [NMF](non-negative matrix factorization) 는 동일한 목적 함수를 최적화하는 것임을 보임
      • NMF 의 경우 I-divergence objective function (-normalization NMF)
    • 다만, NMF 와 PLSI 는 서로 다른 알고리즘임
      • 동일한 초기화 조건으로 시작해도, 서로 다른 solution(local minima) 으로 converge 하게됨
      • NMF 와 PLSI converge 결과가 서로 다르지만, clustering 결과는 동일함
        • 많은 실험 결과에서 local minima 에 근접한 결과를 얻는다면 서로 거의 동일한 결과를 보였고, 그렇지 않으면 서로 매우 다른 결과를 얻었음
    • NMF 와 PLSI 를 서로 조합하면 local minima 를 벗어나는데 도움이 되는 하이브리드 method 를 만들어낼 수 있음
      • hybrid 라는 것이 NMF 한번 수행하고, PLSI 수행하고를 반복하는 알고리즘
  • Data representations of NMF and PLSI
    • NMF:
      • 는 stochastic normalized 된 word frequency:
        • 문서 에 존재하는 word 의 normalized frequency
      • 는 non-negative matrices
      • NMF 의 최소화 목적함수
        • related to KL-Divergence
    • PLSI
      • PLSI 의 최대화 likelihood
      • probability factors
  • Equivalence of NMF and PLSI
    • Theorem 1. PLSI 하고 NMF 는 동일하다.
      • Proposition 1. PLSI 의 목적함수는 NMF 의 목적함수와 동일하다.
      • Proposition 2. NMF 의 열 정규화 값은 probability factorization 과 동일하다.
      • 각 Proposition 에 대한 증명은 생략함

B) Related

C) References