Seesaw Effect

Cascade ranking 시스템에서 pre-ranking의 ranking consistency(순위 일관성)와 set quality(집합 품질)가 trade-off 관계에 있는 현상.

하나를 최적화하면 다른 하나가 악화되는, 시소처럼 움직이는 효과를 말한다.

Alibaba의 ASMOL 논문 (KDD 2023) 에서 처음 명명되었으며, 이후 JD의 HCCP (WWW 2025) 등에서 더 정교하게 정의되었다.

B) 핵심 개념

B.1) 두 가지 상충하는 목표

Pre-ranking 단계에는 본질적으로 다른 두 가지 목표가 존재한다:

목표설명측정 지표비유
Ranking ConsistencyRanking 모델과 동일한 순서로 정렬AUC, NDCG최종 면접처럼 까다롭게 평가
Set Quality좋은 아이템을 놓치지 않고 포함ASH@k, Hitrate서류 심사처럼 넓은 그물

B.2) 왜 동시에 최적화할 수 없는가?

flowchart TD
    RC["Ranking Consistency 추구"]
    RC --> RC1["Ranking 모델의 미세한
    순서 차이를 학습"]
    RC1 --> RC2["Head 아이템 간
    순서에 집중"]
    RC2 --> RC3["경계선의 좋은 아이템
    (Long-tail) 놓침"]
    RC3 --> RC4["AUC ↑ But ASH ↓"]

    SQ["Set Quality 추구"]
    SQ --> SQ1["좋은 아이템을 빠짐없이
    포함하도록 학습"]
    SQ1 --> SQ2["Head + Long-tail
    모두 커버"]
    SQ2 --> SQ3["미세한 순서 정확도는
    다소 희생"]
    SQ3 --> SQ4["ASH ↑ But AUC ↓"]

    style RC4 fill:#FFB6C1
    style SQ4 fill:#90EE90

근본 원인: Pre-ranking과 Ranking은 다른 역할을 수행한다.

단계입력 규모출력 규모핵심 역할치명적 실수
Pre-ranking10만 개1천 개좋은 후보 확보 (Recall)False Negative - 좋은 아이템 탈락
Ranking1천 개10개정확한 순위 (Precision)순서가 틀리는 것

Ranking 모델은 이미 필터링된 “좋은 아이템들” 사이에서 미세한 순서를 학습한다. Pre-ranking이 이를 그대로 모방(Knowledge Distillation)하면, 미세한 차이에 집중 하게 되어 경계선에 있는 좋은 아이템을 놓치게 된다.

B.3) 실험적 검증

Taobao Search에서의 실험 결과 (ASMOL 논문):

설정AUC (순위 일관성)ASH@2000 (집합 품질)GMV
Strong KD (Ranking 모방)0.77540.523낮음
ASMOL (Set Quality 우선)0.76280.591+1.2%

AUC가 낮더라도 ASH가 높으면 비즈니스 성과(GMV)가 더 좋다. 즉, Surrogate metric(AUC)과 Business metric(GMV)이 일치하지 않는다.

C) Seesaw Effect 발생 메커니즘

C.1) Knowledge Distillation의 함정

flowchart TD
    KD["Knowledge Distillation"]
    KD --> Step1["Ranking 모델의 점수를
    soft label로 사용"]
    Step1 --> Step2["Pre-ranking이 Ranking의
    점수 분포를 학습"]
    Step2 --> Problem

    subgraph Problem["문제 발생"]
        P1["Ranking 모델은 Head 아이템에
        최적화되어 있음"]
        P2["Long-tail 아이템에 대한
        점수가 부정확"]
        P3["Pre-ranking이 부정확한
        점수까지 학습"]
    end

    Problem --> Result["Long-tail 좋은 아이템이
    Pre-ranking에서 탈락"]

    style Result fill:#FFB6C1

C.2) Sample Selection Bias와의 관계

Pre-ranking 모델이 Exposure 데이터만으로 학습하면:

  1. 이미 여러 단계를 거쳐 필터링된 편향된 데이터로 학습
  2. 학습 데이터(노출 아이템 ~10개)와 추론 데이터(후보 ~10만개)의 분포 불일치
  3. 대부분의 후보에 대해 신뢰할 수 없는 점수 출력

이 편향은 Seesaw Effect를 더욱 악화시킨다. Ranking consistency를 강하게 추구할수록 편향된 데이터에 overfitting되어 set quality가 더 크게 하락한다.

C.3) Matthew Effect (마태 효과)

기존 KD 기반 접근법은 인기 편향 을 증폭시킨다:

flowchart TD
    A["인기 아이템이 더 많이 노출"]
    A --> B["더 많은 학습 데이터 생성"]
    B --> C["모델이 인기 아이템에
    더 높은 점수 부여"]
    C --> D["인기 아이템이 더 많이
    Pre-ranking 통과"]
    D --> A

    style A fill:#FFB6C1
    style D fill:#FFB6C1

이 악순환은 Long-tail 아이템의 발견 가능성을 지속적으로 감소시킨다.

D) 해결 접근법

D.1) ASMOL (Alibaba, KDD 2023)

핵심 아이디어: Pre-ranking의 목표를 순위 → 집합 품질 로 재정의

기법설명효과
ASH@k 지표Set quality 측정하는 오프라인 평가 지표올바른 최적화 방향 설정
All-Scenario Labels다른 시나리오의 클릭/구매 데이터도 positive로 활용SSB 완화
RC + PRC 샘플Hard/Easy negative 추가로 학습 데이터 확장분포 불일치 해소
Multi-objective LossBCE + List-wise + KD loss 조합Set quality와 Ranking consistency 균형

자세한 내용: Rethinking the Role of Pre-ranking in Large-scale E-Commerce Searching System

D.2) HCCP (JD, WWW 2025)

핵심 아이디어: Multi-level sampling으로 head와 tail 아이템 모두 커버

기법설명
Hybrid Sample ConstructionRanking sequence(비균등 샘플링) + Pre-ranking 후보 + In-batch/pool 샘플링
Margin InfoNCE LossHard negative와 Easy negative를 구분하는 margin 추가

결과: JD 이커머스에서 UCVR +14.9%, UCTR +1.3%—head와 tail 정확도 모두 개선

D.3) COPR (Alibaba, CIKM 2023)

광고 시스템에서의 접근:

기법설명
Chunk-based SamplingRanking 결과를 chunk 단위로 나누어 샘플링
Rank Alignment ModuleECPM 기반 순위 일관성 최적화
Delta-NDCG WeightingChunk 간 샘플 중요도 차별화

결과: Taobao 광고에서 CTR +12.3%, RPM +5.6%

D.4) GRACE (SIGIR 2024)

핵심 아이디어: Generalizability(일반화)와 Ranking consistency를 상호보완적 목표로 재정의

기법설명
Binary ClassificationTop-k 멤버십 예측 태스크
GNN-pretrained EmbeddingsLong-tail 아이템 표현 강화를 위한 contrastive learning

D.5) 접근법 비교

논문전략핵심 차이점
ASMOLSet quality 우선목표 자체를 재정의
HCCP양쪽 균형Multi-level 샘플링으로 둘 다 커버
COPRConsistency 개선광고 도메인 특화 (ECPM 기반)
GRACE상호보완Generalizability로 간접 해결

E) 더 넓은 맥락: ML에서의 Seesaw 현상

“Seesaw”라는 메타포는 pre-ranking 외에도 ML의 다양한 영역에서 유사한 trade-off를 설명하는 데 사용된다.

E.1) Seesaw Loss (CVPR 2021)

Long-tailed instance segmentation에서 head class와 tail class 간의 gradient 불균형 문제:

  • 문제: Head class가 tail class의 negative sample을 지배 → tail class에 대한 과도한 negative gradient
  • 해결: Mitigation factor(tail category 페널티 감소) + Compensation factor(오분류 페널티 증가)

E.2) Multi-task Learning의 Gradient Conflict

Multi-task learning에서 task 간 gradient가 충돌하는 현상 (PCGrad, CAGrad 등):

Seesaw 축 ASeesaw 축 B
Task A의 gradientTask B의 gradient
Head class 정확도Tail class 정확도
Vision modalityLanguage modality

E.3) 공통 패턴

모든 Seesaw 현상의 본질: 제한된 리소스(모델 용량, 데이터, 학습 시간) 하에서 하나의 목표를 최적화하면 상관된 다른 목표가 악화된다.

F) 실무적 시사점

F.1) Pre-ranking 설계 원칙

  1. 평가 지표 재설계: AUC/NDCG만으로 pre-ranking을 평가하지 말 것 → Hitrate 기반 지표(ASH@k) 도입
  2. Surrogate metric ≠ Business metric: 오프라인 지표 개선이 온라인 성과와 일치하는지 반드시 검증
  3. 각 단계의 역할 명확화: Pre-ranking은 “경량화된 Ranking”이 아니라 “고품질 후보 집합 생성기”

F.2) 단계별 최적화 관점

flowchart LR
    M["Matching
    Recall 극대화"]
    P["Pre-ranking
    Set Quality 극대화"]
    R["Ranking
    순위 정확도 극대화"]
    RR["Re-ranking
    최종 최적화"]

    M --> P --> R --> RR

    style P fill:#fff3cd,stroke:#ffc107

핵심: 각 단계가 자기 역할에 맞는 목표를 최적화해야 전체 시스템이 최적화된다. Pre-ranking이 Ranking을 맹목적으로 따라하면 Seesaw Effect로 인해 전체 성과가 떨어진다.

G) References