Label Encoding
Numerical 데이터로 바꿀 때, 0 이상의 정수를 사용하는 방법을 의미한다.
예시
[‘apple’, ‘dog’, ‘cat’] = [0, 1, 2]
B) Pros and Cons
문제점
Label Encoding 의 문제는 학습 모델이 데이터에 관계가 있을 것으로 착각하게 만들 수 있다는 점이다.
B.1) 예시
예 1) [0, 1, 2] 에서 숫자 간 관계는 전혀 없지만, 모델은 0 < 1 < 2 로 오해할 수 있다.
예 2) [0, 1, 2] 가 각각 [‘apple’, ‘dog’, ‘cat’] 을 나타낸 거라면, ‘cat’ 과 ‘apple’의 평균은 ‘dog’으로 오해할 수 있다: (0 + 2) / 2 = 1
위와 같은 단점에도 불구하고, tree based model 인 Decision Tree 또는 random forest 와 같은 모델에는 잘 적용될 수 있다.
Pros
장점: One Hot Encoding 에 비해 저장 공간을 적게 필요로 한다.