핵심 요약

Spearman’s Rank Correlation (SRC): 두 변수의 순위(rank) 간 상관관계를 측정하는 비모수적 방법. Pearson 상관계수와 달리 선형성을 가정하지 않고, outlier에 덜 민감함.

B) 정의

B.1) 일반 공식

$n$ 개의 데이터 $(X_{i}, Y_{i})$ 가 있고, 각각의 순위가 $R (X_{i}), R (Y_{i})$ 일 때:

$r_{s} = ρ_{R (X), R (Y)} = \frac{cov ( R ( X ) , R ( Y ))}{σ _{R (X)} \cdot σ _{R (Y)}}$

쉽게 말하면:

Spearman = 순위에 대한 Pearson 상관계수

1. 원본 데이터를 순위로 변환
   X: [100, 50, 200] → R(X): [2, 1, 3]
   Y: [30, 10, 40]   → R(Y): [2, 1, 3]

2. 변환된 순위에 Pearson 공식 적용
   - 공분산: R(X)와 R(Y)가 같이 움직이는 정도
   - 표준편차: 각각의 순위가 흩어진 정도

3. 결과: -1 ~ +1 사이의 값

구성 요소	의미
$cov (R (X), R (Y))$	X순위와 Y순위가 함께 변하는 정도
$σ_{R (X)}$	X순위의 흩어진 정도 (표준편차)
$σ_{R (Y)}$	Y순위의 흩어진 정도 (표준편차)

핵심: 원본 값이 아닌 순위를 사용하기 때문에 outlier 영향을 덜 받음

B.2) 간편 공식 (Tie가 없을 때)

순위가 모두 다른 정수일 때 (tie 없음):

$r_{s} = 1 - \frac{6 \sum d _{i}^{2}}{n ( n ^{2} - 1 )}$

기호	의미
$d_{i}$	$R (X_{i}) - R (Y_{i})$ (순위 차이)
$n$	데이터 개수

B.2.1) 왜 6인가?

순위가 1, 2, 3, …, n일 때 순위의 분산이 특별한 값을 가지기 때문:

$σ_{rank}^{2} = \frac{n ^{2} - 1}{12}$

왜 12인가? (순위 분산 유도)

순위 1, 2, 3, …, n에 대해:

공식	값
평균	$\overset{ˉ}{R} = \frac{n + 1}{2}$
제곱합	$\sum_{i = 1}^{n} i^{2} = \frac{n ( n + 1 ) ( 2 n + 1 )}{6}$ ← 6 등장

분산 계산: $σ^{2} = \frac{1}{n} \sum i^{2} - \overset{ˉ}{R}^{2} = \frac{( n + 1 ) ( 2 n + 1 )}{6} - \frac{( n + 1 ) ^{2}}{4}$

통분하면 (분모 6과 4의 최소공배수 = 12): $= \frac{2 ( n + 1 ) ( 2 n + 1 ) - 3 ( n + 1 ) ^{2}}{12} = \frac{( n + 1 ) ( n - 1 )}{12} = \frac{n ^{2} - 1}{12}$

숫자	출처
6	제곱합 공식 $\frac{n ( n + 1 ) ( 2 n + 1 )}{6}$
4	평균 제곱 $(\frac{n + 1}{2})^{2}$
12	6과 4의 최소공배수 (통분)

유도 과정 (6이 나오는 이유):

1. Pearson 공식을 순위에 적용하면:
   r_s = cov(R(X), R(Y)) / (σ_R(X) × σ_R(Y))

2. 순위의 공분산과 d²의 관계:
   cov(R(X), R(Y)) = (n²-1)/12 - Σd²/(2n)

3. 이를 분산 (n²-1)/12 로 나누면:
   r_s = 1 - Σd²/(2n) ÷ (n²-1)/12
       = 1 - Σd² × 12 / (2n × (n²-1))
       = 1 - 6Σd² / (n(n²-1))

핵심: 12 ÷ 2 = 6이 나옴

숫자	출처
12	순위 분산의 분모: $\frac{n ^{2} - 1}{12}$
2	공분산 전개 시 $\frac{\sum d ^{2}}{2 n}$
6	12 ÷ 2 = 6

B.3) 해석

$r_{s}$ 값	해석
+1	완벽한 양의 단조 관계
0	단조 관계 없음
-1	완벽한 음의 단조 관계

C) Pearson vs Spearman 비교

항목	Pearson	Spearman
측정 대상	선형 관계	단조 (monotonic) 관계
가정	선형성, 정규성	없음 (비모수적)
Outlier 민감도	높음	낮음
데이터 타입	연속형	순서형/연속형

C.1) 선형 조건 비교

|400

완벽한 선형 관계: Pearson = Spearman = 1
비선형 단조 관계: Pearson < Spearman

C.2) Outlier 영향 비교

Outlier가 있을 때 Pearson은 크게 영향 받음
Spearman은 순위 기반이라 영향 적음

D) 계산 예시

$X$	$Y$	$R (X)$	$R (Y)$	$d$	$d^{2}$
10	9.0	1	2	-1	1
20	8.5	2	1	1	1
30	9.5	3	3	0	0
40	10.0	4	4	0	0
50	11.0	5	5	0	0

$r_{s} = 1 - \frac{6 \times ( 1 + 1 + 0 + 0 + 0 )}{5 \times ( 25 - 1 )} = 1 - \frac{12}{120} = 0.9$

E) 언제 사용하나?

상황	추천
선형 관계 확인	Pearson
단조 관계 확인 (비선형 포함)	Spearman
Outlier가 많은 데이터	Spearman
순서형 데이터 (리커트 척도 등)	Spearman
정규성 가정 못할 때	Spearman

G) References

Wikipedia - Spearman’s rank correlation coefficient

Zzong's Notes

탐색기

Spearman's rank correlation

핵심 요약

B) 정의

B.1) 일반 공식

B.2) 간편 공식 (Tie가 없을 때)

B.2.1) 왜 6인가?

B.3) 해석

C) Pearson vs Spearman 비교

C.1) 선형 조건 비교

C.2) Outlier 영향 비교

D) 계산 예시

E) 언제 사용하나?

G) References

링크된 언급

목차

탐색기

Spearman's rank correlation

핵심 요약

B) 정의

B.1) 일반 공식

B.2) 간편 공식 (Tie가 없을 때)

B.2.1) 왜 6인가?

B.3) 해석

C) Pearson vs Spearman 비교

C.1) 선형 조건 비교

C.2) Outlier 영향 비교

D) 계산 예시

E) 언제 사용하나?

F) Related

G) References

링크된 언급

함께 보면 좋은 글

목차