Classification

  • 일반적인 classification 문제: ( 은 Negative Class, 은 Positive Class)
    • E-mail: 스팸 yes or no?
    • 온라인 거래: 사기 yes or no?
    • Tumor: 양성 or 음성?

B) Multi-class Classification

분류하려는 class 가 3 개 이상인 경우의 분류 문제를 의미하며, 정답은 한 개의 class 밖에 없다. 2 개 이하인 경우는 binary-class classification 으로 부른다.

Categorical cross-entropy 를 loss function 으로 사용한다.

B.1) Multi-class Loss

loss function

  • : test set 의 총 개수
  • : 클래스 label 개수
  • : 번째 observation 에 class 가 속해있는지 여부
  • : 번째 observation 이 class 에 속할 확률
    • log 를 씌우므로 또는 이 되는 것을 막기 위해 작은 값으로 대체한다:

C) Multi-label Classification

한 데이터에 대해서 맞춰야 하는 label 의 개수가 2 개 이상인 분류 문제를 의미한다.

|600

각 class 에 대한 binary cross-entropy 들의 합을 loss function 으로 사용한다.

예시로, 위 그림에서 target 1 과 prediction 0.6 에 대한 binary cross-entory 를 계산하고, 그 다음으로 target 0 과 prediction 0.7 에 대한 binary cross-entory 를 계산.. etc.

D) ML Methods for Classification

  1. Linear Classifier (logistic regression, linear SVM)
  2. Kernel Machines (kernel trick 을 사용한 SVMs)
  3. deep learning 계열의 neural network
  4. Decision Tree 와 ensemble 기반의 tree (random forest, GBM)
  5. KNN 또는 Naïve Bayes 와 같은 Naive 한 기술들

E) Related

F) References