Zzong's Notes

❯

machine_learning

❯

silhouette score

silhouette score

2026년 6월 14일2 min read

Silhouette Score

clustering 적용 후, 데이터가 얼마나 잘 분류되었는지 수치적으로 확인할 수 있는 값

s (i) = \frac{b ( i ) - a ( i )}{max { a ( i ) , b ( i )}}

$- 1$ 부터 $1$ 의 값을 가지며, 높을수록 데이터 (object) 가 클러스터에 잘 매치된다는 의미를 가짐

A.1) Notations

$a (i)$ 는 같은 클러스터 내부에 있는 모든 데이터들 사이의 평균 거리
- 특정 데이터 $i$ 가 얼마나 클러스터에 잘 할당되었는지 확인하는 값임
$b (i)$ 는 $i$ 와 다른 클러스터 중, 가장 가까운 클러스터에 속한 다른 데이터들 간의 평균 거리

B) II. vs. Distortion

차이점
- 실루엣 측정값은 데이터 자체에 대한 클러스터 할당의 적합성을 판단하는 것
- distortion 은 전반적인 데이터와 클러스터 중심 간 거리를 계산한다
공통점
- 둘 다 heuristic 하다

링크된 언급

1

K-means silhouette score Elbow Method

함께 보면 좋은 글

distortion

Distortion Distortion 은 clustering 에서 data point 와 자신이 속한 cluster center 사이의 거리 기반 cost 를 말한다.

clustering

Clustering B) 다차원에서의 클러스터링 다차원 (high dimensional) 데이터를 이용한 클러스터링은 의미없을 수 있다 (may be meaningless).

Elbow Method

Elbow Method B) References.

Hierarchical Clustering

Hierarchical Clustering 객체 간 pairwise distance matrix 를 이용해서, 비슷한 객체 간 중첩된 계층 그룹을 생성하는 방법 B) Methods 두 가지 방법이 존재한다.

K-means

K-means A.1) 시간 복잡도 O(kNrD) k : 클러스터 개수 (사용자에 의해 정의됨) N : 객체 개수 r: 수렴할때 까지 반복한 iteration 횟수 D : 객체의 차원 수 (window 를 이용한 clustering 의 경우, window 길이) A.2) Optimization Object...

K-prototype

K-prototype K-prototype 은 k-means 와 k-mode 를 결합하여 수치적 데이터와 범주적 데이터가 모두 있는 데이터 세트를 처리하는 클러스터링 알고리즘 (clustering) B) References Detailed EDA | k-prototypes clustering | Kaggle...

Area Under Curve

AUC AUC 는 ROC 곡선 아래의 영역을 의미한다. 즉, AUC 가 높다는 사실은 클래스를 구별하는 모델의 성능이 휼륭하다는 것을 의미한다.

t-Stochastic Nearest Embedding

t-SNE t-Stochastic Nearest Embedding 는 vector visualization 을 위하여 자주 이용되는 차원 축소 알고리즘이다.

residual standard error

Residual Standard Error, RSE \displaystyle\mathrm{RSE}=\sqrt{\frac{1}{n-p-1} \cdot \mathrm{RSS}} p 는 모델의 변수 개수 그리고 n 은 데이터 개수이며, RSS 는 다음과 같다.

cross-entropy

Cross-entropy 우리가 예측 모형을 build 하는 이유는 불확실성을 제어하고자 하는 것이다. 이때, 예측 모형은 실제 분포인 q 를 모르고, 모델링을 하여 q 분포를 예측하고자 하는 것이다. 예측 모델링을 통해 구한 분포를 p 라고 해보자.

Silhouette Score
A.1) Notations
B) II. vs. Distortion