핵심 요약
Spearman’s Rank Correlation (SRC): 두 변수의 순위(rank) 간 상관관계를 측정하는 비모수적 방법. Pearson 상관계수와 달리 선형성을 가정하지 않고, outlier에 덜 민감함.
B) 정의
B.1) 일반 공식
개의 데이터 가 있고, 각각의 순위가 일 때:
쉽게 말하면:
Spearman = 순위에 대한 Pearson 상관계수
1. 원본 데이터를 순위로 변환
X: [100, 50, 200] → R(X): [2, 1, 3]
Y: [30, 10, 40] → R(Y): [2, 1, 3]
2. 변환된 순위에 Pearson 공식 적용
- 공분산: R(X)와 R(Y)가 같이 움직이는 정도
- 표준편차: 각각의 순위가 흩어진 정도
3. 결과: -1 ~ +1 사이의 값
| 구성 요소 | 의미 |
|---|---|
| X순위와 Y순위가 함께 변하는 정도 | |
| X순위의 흩어진 정도 (표준편차) | |
| Y순위의 흩어진 정도 (표준편차) |
핵심: 원본 값이 아닌 순위를 사용하기 때문에 outlier 영향을 덜 받음
B.2) 간편 공식 (Tie가 없을 때)
순위가 모두 다른 정수일 때 (tie 없음):
| 기호 | 의미 |
|---|---|
| (순위 차이) | |
| 데이터 개수 |
B.2.1) 왜 6인가?
순위가 1, 2, 3, …, n일 때 순위의 분산이 특별한 값을 가지기 때문:
왜 12인가? (순위 분산 유도)
순위 1, 2, 3, …, n에 대해:
| 공식 | 값 |
|---|---|
| 평균 | |
| 제곱합 | ← 6 등장 |
분산 계산:
통분하면 (분모 6과 4의 최소공배수 = 12):
| 숫자 | 출처 |
|---|---|
| 6 | 제곱합 공식 |
| 4 | 평균 제곱 |
| 12 | 6과 4의 최소공배수 (통분) |
유도 과정 (6이 나오는 이유):
1. Pearson 공식을 순위에 적용하면:
r_s = cov(R(X), R(Y)) / (σ_R(X) × σ_R(Y))
2. 순위의 공분산과 d²의 관계:
cov(R(X), R(Y)) = (n²-1)/12 - Σd²/(2n)
3. 이를 분산 (n²-1)/12 로 나누면:
r_s = 1 - Σd²/(2n) ÷ (n²-1)/12
= 1 - Σd² × 12 / (2n × (n²-1))
= 1 - 6Σd² / (n(n²-1))
핵심: 12 ÷ 2 = 6이 나옴
| 숫자 | 출처 |
|---|---|
| 12 | 순위 분산의 분모: |
| 2 | 공분산 전개 시 |
| 6 | 12 ÷ 2 = 6 |
B.3) 해석
| 값 | 해석 |
|---|---|
| +1 | 완벽한 양의 단조 관계 |
| 0 | 단조 관계 없음 |
| -1 | 완벽한 음의 단조 관계 |
C) Pearson vs Spearman 비교
| 항목 | Pearson | Spearman |
|---|---|---|
| 측정 대상 | 선형 관계 | 단조 (monotonic) 관계 |
| 가정 | 선형성, 정규성 | 없음 (비모수적) |
| Outlier 민감도 | 높음 | 낮음 |
| 데이터 타입 | 연속형 | 순서형/연속형 |
C.1) 선형 조건 비교

- 완벽한 선형 관계: Pearson = Spearman = 1
- 비선형 단조 관계: Pearson < Spearman
C.2) Outlier 영향 비교
- Outlier가 있을 때 Pearson은 크게 영향 받음
- Spearman은 순위 기반이라 영향 적음
D) 계산 예시
| 10 | 9.0 | 1 | 2 | -1 | 1 |
| 20 | 8.5 | 2 | 1 | 1 | 1 |
| 30 | 9.5 | 3 | 3 | 0 | 0 |
| 40 | 10.0 | 4 | 4 | 0 | 0 |
| 50 | 11.0 | 5 | 5 | 0 | 0 |
E) 언제 사용하나?
| 상황 | 추천 |
|---|---|
| 선형 관계 확인 | Pearson |
| 단조 관계 확인 (비선형 포함) | Spearman |
| Outlier가 많은 데이터 | Spearman |
| 순서형 데이터 (리커트 척도 등) | Spearman |
| 정규성 가정 못할 때 | Spearman |