PCA

$N$ 개의 i.i.d. 를 만족하는 데이터 포인트들 $X = [x_{1}, \dots, x_{N}]^{T}$ 이 존재하고, 각 $x$ 는 $D$ 차원 벡터라고 하자. 이때 PCA 는 projection matrix $P = [p_{1}, \dots, p_{D^{'}}]^{T}$ 를 찾는 방법이다 ( $D^{'} \leq D$ ).

PCA 를 사용한다는 것은 기존의 $n$ 차원 데이터 $x_{n}$ 와 유사한 projections $\tilde{x}_{n}$ 를 찾는 것과 동일한 말이다. 좀 더 구체적으로 얘기해보면, 다음과 같은 식으로 $D$ 차원 데이터 $x_{n}$ 의 저차원 ( $M$ ) 변환을 수행할 수 있다.

z_{n} = B^{⊤} x_{n} \in R^{M}

여기서 $B$ 는 projection matrix 로, 다음과 같이 표현된다.

B := [b_{1}, \dots, b_{M}] \in R^{D \times M}

여기서 $M < D$ 를 만족한다.

$B$ 을 이루는 열벡터들은 orthonormal 하다고 가정한다. 왜냐하면, projection 자체가 scaling 없이 rotation 만 하기 때문에 unit vector 여야 하기 때문이다.

A.1) Figure

B) PCA Derivation

projection matrix $P = [p_{1}, \dots, p_{D^{'}}]^{T}$ 에서 $p$ 는 $X$ 의 variance 를 최대화 하는 방향으로 각 데이터를 저차원으로 mapping 시키는데, 여기서는 예시로 $p_{1}$ 을 어떻게 유도하는지 살펴보자.

covariance matrix $C$ 는 다음과 같이 계산된다.

C = \frac{1}{N} n = 1 \sum N (x_{n} - μ) (x_{n} - μ)^{T}

$μ = \frac{1}{N} \sum_{n = 1}^{N} x_{n}$ 는 mean

데이터 point 를 $p_{1}$ 에 project 하고난 결과의 variance 를 계산하면, 다음과 같다

v^{'} = \frac{1}{N} n = 1 \sum N (p_{1}^{T} x_{n} - p_{1}^{T} μ)^{2} = p_{1}^{T} C p_{1}

$v^{'}$ 는 scalar 이다.

PCA 는 $v^{'}$ 값을 최대화할수 있는 unit vector $p_{1}$ 를 찾는 것이 목적이므로, Lagrange multiplier method 를 활용하여 아래와 같이 식을 세울 수 있다.

p_{1} \leftarrow max F = p_{1}^{T} C p_{1} + λ_{1} (1 - p_{1}^{T} p_{1})

data compression 을 통해 가장 많은 정보를 남긴다는 의미는 저차원 데이터에서 가장 큰 variance 값을 찾아내는 것과 동일하다.

위 식에서 $F$ 를 $p_{1}$ 에 대해서 미분하여 0 으로 설정하면 다음과 같은 조건을 찾을 수 있다.

\frac{d F}{d p _{1}} = 0 \Rightarrow C p_{1} = λ_{1} p_{1}

위 식은 $C$ 의 eigen-decomposition 식을 푸는것과 동일하다 ( $p_{1}$ 가 eigenvector 그리고 $λ_{1}$ 은 eigenvalue). 즉, $det (C - λ_{1} I) = 0$ 를 푸는 것과 동일하다.

나머지 projection column vector $p_{2}, \dots, p_{D^{'}}$ 에 대해서도 풀면, $C$ 은 eigen-decomposition 에 의해 다음과 같이 표현할 수 있다.

C = P Λ P^{T}

$Λ$ 는 diagonal matrix with elements ${λ_{1}, λ_{2}, \dots, λ_{D}}$ and $λ_{1} \geq λ_{2} \geq \dots \geq λ_{D}$

C) Relation with Singular Value Decomposition

SVD 와 PCA 는 동일한 방법이지만 좀 더 유연한 방법이다.

왜 동일한지 설명하기 위해, 모든 데이터가 zero mean 으로 전처리 되었다 ( $x_{n} - μ$ ) 는 가정 하에 얘기하자면 다음과 같다.

covariance matrix $C = \frac{1}{n - 1} XX^{⊤}$ 은 symmetric matrix 이고 diagonalizable 하므로, 다음과 같이 eigenvector 들은 normalized 될 수 있다.

\frac{1}{n - 1} XX^{⊤} = \frac{1}{n - 1} WDW^{⊤}

데이터 $X$ 에 대해 SVD 를 적용한다면, 다음과 같다.

\frac{1}{n - 1} XX^{⊤} = \frac{1}{n - 1} (UΣ V^{⊤}) (UΣ V^{⊤})^{⊤} = \frac{1}{n - 1} U Σ^{2} U^{⊤}

즉, $\frac{1}{n - 1} WDW^{⊤} = \frac{1}{n - 1} U Σ^{2} U^{⊤}$ 이므로, $X X^{⊤}$ 의 eigenvalue 들의 square root 를 씌운것이 $X$ 의 singular value 와 동일함을 알 수 있다.

D) Further Reading

Chapter 4.1.4–4.1.6 in Chris Bishop’s book on PRML covers LDA

E) Reference

Probabilistic PCA

Zzong's Notes

탐색기

Principal Component Analysis

PCA

A.1) Figure

B) PCA Derivation

C) Relation with Singular Value Decomposition

D) Further Reading

E) Reference

링크된 언급

목차

탐색기

Principal Component Analysis

PCA

A.1) Figure

B) PCA Derivation

C) Relation with Singular Value Decomposition

D) Further Reading

E) Reference

F) Related

링크된 언급

함께 보면 좋은 글

목차