핵심 요약

Spearman’s Rank Correlation (SRC): 두 변수의 순위(rank) 간 상관관계를 측정하는 비모수적 방법. Pearson 상관계수와 달리 선형성을 가정하지 않고, outlier에 덜 민감함.

B) 정의

B.1) 일반 공식

개의 데이터 가 있고, 각각의 순위가 일 때:

쉽게 말하면:

Spearman = 순위에 대한 Pearson 상관계수

1. 원본 데이터를 순위로 변환
   X: [100, 50, 200] → R(X): [2, 1, 3]
   Y: [30, 10, 40]   → R(Y): [2, 1, 3]

2. 변환된 순위에 Pearson 공식 적용
   - 공분산: R(X)와 R(Y)가 같이 움직이는 정도
   - 표준편차: 각각의 순위가 흩어진 정도

3. 결과: -1 ~ +1 사이의 값
구성 요소의미
X순위와 Y순위가 함께 변하는 정도
X순위의 흩어진 정도 (표준편차)
Y순위의 흩어진 정도 (표준편차)

핵심: 원본 값이 아닌 순위를 사용하기 때문에 outlier 영향을 덜 받음

B.2) 간편 공식 (Tie가 없을 때)

순위가 모두 다른 정수일 때 (tie 없음):

기호의미
(순위 차이)
데이터 개수

B.2.1) 왜 6인가?

순위가 1, 2, 3, …, n일 때 순위의 분산이 특별한 값을 가지기 때문:

왜 12인가? (순위 분산 유도)

순위 1, 2, 3, …, n에 대해:

공식
평균
제곱합6 등장

분산 계산:

통분하면 (분모 6과 4의 최소공배수 = 12):

숫자출처
6제곱합 공식
4평균 제곱
126과 4의 최소공배수 (통분)

유도 과정 (6이 나오는 이유):

1. Pearson 공식을 순위에 적용하면:
   r_s = cov(R(X), R(Y)) / (σ_R(X) × σ_R(Y))

2. 순위의 공분산과 d²의 관계:
   cov(R(X), R(Y)) = (n²-1)/12 - Σd²/(2n)

3. 이를 분산 (n²-1)/12 로 나누면:
   r_s = 1 - Σd²/(2n) ÷ (n²-1)/12
       = 1 - Σd² × 12 / (2n × (n²-1))
       = 1 - 6Σd² / (n(n²-1))

핵심: 12 ÷ 2 = 6이 나옴

숫자출처
12순위 분산의 분모:
2공분산 전개 시
612 ÷ 2 = 6

B.3) 해석

해석
+1완벽한 양의 단조 관계
0단조 관계 없음
-1완벽한 음의 단조 관계

C) Pearson vs Spearman 비교

항목PearsonSpearman
측정 대상선형 관계단조 (monotonic) 관계
가정선형성, 정규성없음 (비모수적)
Outlier 민감도높음낮음
데이터 타입연속형순서형/연속형

C.1) 선형 조건 비교

|400

  • 완벽한 선형 관계: Pearson = Spearman = 1
  • 비선형 단조 관계: Pearson < Spearman

C.2) Outlier 영향 비교

  • Outlier가 있을 때 Pearson은 크게 영향 받음
  • Spearman은 순위 기반이라 영향 적음

D) 계산 예시

109.012-11
208.52111
309.53300
4010.04400
5011.05500

E) 언제 사용하나?

상황추천
선형 관계 확인Pearson
단조 관계 확인 (비선형 포함)Spearman
Outlier가 많은 데이터Spearman
순서형 데이터 (리커트 척도 등)Spearman
정규성 가정 못할 때Spearman

F) Related

G) References