Naïve Bayes

Naïve Bayes 는 서로 조건부 독립 (conditional independence) 인 feature 를 가정하고, Bayes theorem 을 기반으로 하는 ML 알고리즘

class 변수 $y$ 에 의존 관계가 있는 feature vector 가 $x_{1}$ 부터 $x_{n}$ 까지 주어졌다면, Naïve Bayes 는 다음을 계산한다.

P (y ∣ x_{1}, \dots, x_{n}) = \frac{P ( y ) P ( x _{1} , \dots , x _{n} ∣ y )}{P ( x _{1} , \dots , x _{n} )}

모든 feature 들은 조건부 독립이기 때문에, 이 성질을 이용하면 위의 식을 더욱 단순화시킬 수 있다.

P (y ∣ x_{1}, \dots, x_{n}) = \frac{P ( y ) \prod _{i = 1}^{n} P ( x _{i} ∣ y )}{P ( x _{1} , \dots , x _{n} )}

여기서 분모의 $P (x_{1}, \dots, x_{n})$ 는 상수이므로, 분자만 생각하면 된다.

P (y ∣ x_{1}, \dots, x_{n}) \propto P (y) i = 1 \prod n P (x_{i} ∣ y)

만약 feature vector 가 $x_{1}$ 부터 $x_{n}$ 까지 주어졌고, 이 feature vector 에 대한 class 를 찾기 위해 Naïve Bayes 를 사용한다면, 아래의 식을 만족하는 $\overset{y}{^}$ 를 찾으면 된다.

\overset{y}{^} = ar g y max P (y) i = 1 \prod n P (x_{i} ∣ y)

B) 장점 및 단점

feature 간 독립이라는 가정이 성립해야 하므로 결과를 신뢰하기가 힘들다.
학습 데이터를 기반으로 확률을 추정하므로, 학습 데이터에는 없지만 테스트 데이터에는 있는 class 의 경우 추정이 불가능하다 (확률이 0 이 되어버리기 때문).