Silhouette Score
clustering 적용 후, 데이터가 얼마나 잘 분류되었는지 수치적으로 확인할 수 있는 값
부터 의 값을 가지며, 높을수록 데이터 (object) 가 클러스터에 잘 매치된다는 의미를 가짐
A.1) Notations
- 는 같은 클러스터 내부에 있는 모든 데이터들 사이의 평균 거리
- 특정 데이터 가 얼마나 클러스터에 잘 할당되었는지 확인하는 값임
- 는 와 다른 클러스터 중, 가장 가까운 클러스터에 속한 다른 데이터들 간의 평균 거리
B) II. vs. Distortion
- 차이점
- 실루엣 측정값은 데이터 자체에 대한 클러스터 할당의 적합성을 판단하는 것
- distortion 은 전반적인 데이터와 클러스터 중심 간 거리를 계산한다
- 공통점
- 둘 다 heuristic 하다