One Hot Encoding
Numerical 데이터로 바꿀 때, 0 또는 1 만을 사용하는 방법을 의미한다.
A.1) 예시
예 1) [‘apple’, ‘dog’, ‘cat’] = [[0, 0, 1], [0, 1, 0], [1, 0, 0]]
예 2, Word Representation)

이렇게 하면 모든 데이터가 orthogonal vector space 에 존재하는 vector 들로 표현된다.
B) 특징
B.1) 장점
- 데이터 간 관계성을 없앰으로써, Label Encoding 의 단점을 해결한다.
B.2) 단점
- high cardinality -> feature space 가 굉장히 빠르게 증가하므로 차원의 저주를 해결해야 한다.
- Word Embedding 을 위해 One Hot Encoding 을 사용할 경우, 각 단어 간 관계를 유추하기 어렵다.
C) Notes
일반적으로 One Hot Encoding 이후 Principal Component Analysis 를 적용하는 과정을 거치면 좋다.