한줄 요약

Alibaba 규모의 추천 플랫폼에서 cold item의 생태계 부스팅 을 위한 end-to-end 프레임워크. Tiered Boosting (단계적 노출 예산 할당) + Stacking Fine-Tuning Cold Predictor (cold CTR 예측) + Item-Oriented Bidding (입찰 기반 노출 최적화) 세 가지 핵심 모듈로 구성된다. 180일 기준 cold item의 클릭 +76%, GMV +72% 개선, 플랫폼 전체로도 클릭 +4.51%, GMV +4.69% 향상을 달성했다.

  • 저자: Qijie Shen, Yuanchen Bei, Zihong Huang, Jialin Zhu, Keqin Xu, Boya Du, Jiawei Tang, Yuning Jiang, Feiran Huang, Xiao Huang, Hao Chen
  • 학회: KDD 2025 (Toronto)
  • 플랫폼: Taobao (알리바바), 일 3억 유저, 100만 신규 아이템, 100억 인터랙션

B) 전체 구조

┌─────────────────────────────────────────────────────────────────┐
│  [입력]                                                         │
│  신규 Cold Item ──┐                                             │
│  Foundation CTR ──┤                                             │
│                   ▼                                             │
│  [Potential Prediction]                                         │
│  ┌──────────────────────────────────┐                           │
│  │ Stacking Fine-Tuning Cold Pred. │                           │
│  │          ▼                       │                           │
│  │   P40 Percentile Ranking        │                           │
│  │          ▼                       │                           │
│  │   초기 Stage 배정 (1/2/3)        │                           │
│  └──────────┬───────────────────────┘                           │
│             ▼                                                   │
│  [Tiered Boosting Structure]                                    │
│  ┌──────────────────────────────────────────────────┐           │
│  │ Stage 1 (Budget 소)                               │           │
│  │   ├── CTR ≥ γ¹ × Category CTR ──→ Stage 2 (중)   │           │
│  │   └── CTR 미달 ──→ EXIT                           │           │
│  │ Stage 2 (Budget 중)                               │           │
│  │   ├── CTR ≥ γ² × Category CTR ──→ Stage 3 (대)   │           │
│  │   └── CTR 미달 ──→ EXIT                           │           │
│  │ Stage 3 (Budget 대) ──→ 완료                      │           │
│  └──────────┬───────────────────────────────────────┘           │
│             ▼                                                   │
│  [Item-Oriented Bidding]                                        │
│  ┌──────────────────────────────────────────────────┐           │
│  │ Bid = CTR Prediction                              │           │
│  │ Price = P40 × Speed Factor × User Pref Factor     │           │
│  │                                                    │           │
│  │  Bid > Price? ──YES──→ Boosting 노출               │           │
│  │                  NO──→ 노출 안 함                   │           │
│  └──────────┬───────────────────────────────────────┘           │
│             ▼                                                   │
│  [출력]                                                         │
│  Boosting 노출 ──→ Natural 추천 증폭 (α × CTR_boost)            │
└─────────────────────────────────────────────────────────────────┘

핵심 흐름:

  1. 신규 아이템이 들어오면, Stacking Fine-Tuning Cold Predictor 가 Foundation CTR 모델 위에 cold-specific feature를 결합하여 CTR을 예측
  2. P40 percentile 기반으로 아이템의 잠재력(potential) 을 평가해 초기 Stage 배정
  3. Tiered Boosting 에서 각 Stage마다 점진적으로 증가하는 예산을 할당하고, CTR 성과에 따라 승격/퇴출
  4. 실제 노출은 Item-Oriented Bidding 으로 결정: bid(CTR 예측값)이 price(기준가 × 속도 × 유저 선호)보다 높으면 노출
  5. Boosting 노출의 CTR이 좋으면 자연 추천(Natural Rec.)에서도 증폭 효과 발생

C) 배경 지식

C.1) Cold-Start Problem in Recommendation

추천 시스템에서 신규 아이템은 행동 데이터(클릭, 구매 등)가 부족하여 CTR 예측이 부정확하고, 노출 기회를 얻기 어렵다. 기존 접근법들:

접근법방식한계
Contrastive Learningwarm/cold item 간 representation 정렬초기 추천만 개선, lifecycle 미고려
Meta-Learningfew-shot 학습으로 빠른 적응생태계 전체 관점 부재
Knowledge Distillationwarm model → cold model 지식 전이popularity bias 해결 못함
LLM-based (ColdLLM 등)텍스트 기반 cold item representation대규모 시스템 배포 어려움

C.2) Matthew Effect (마태 효과)

“부익부 빈익빈” — 인기 아이템은 더 많은 노출 → 더 많은 클릭 → 더 많은 추천의 positive feedback loop. 신규 아이템은 이 루프에 진입하지 못해 영구적으로 묻힌다.

C.3) PID Control

공학에서 사용하는 피드백 제어 기법. Proportional(비례), Integral(적분), Derivative(미분) 세 요소로 목표값에 수렴하도록 제어한다. AliBoost에서는 budget 소비 속도를 안정적으로 조절하는 데 PID의 아이디어를 차용했다.

D) 기존 방법의 한계

AliBoost 배포 전, cold item의 41.1%가 30일이 지나도 일 노출 10회를 달성하지 못했다.

세 가지 근본 원인:

  1. Warm Preference Bias: 유저는 본능적으로 인기 있는(warm) 아이템을 클릭 → 추천 시스템이 이를 학습 → cold item 추천 더 줄어듬
  2. Insufficient Cold-Start Support: 기존 cold-start 모델들은 “초기 진입”만 다루고, 아이템이 성장하는 전체 lifecycle 을 관리하지 않음
  3. Lack of Incentivized Exposure: 잠재력이 높은 cold item도 초기에 노출이 부족하면 자연 추천으로 올라올 수 없음

비유하면: 기존 방식은 “신입 사원에게 이력서 쓰는 법만 알려주고 면접 기회는 안 줌”. AliBoost는 “면접 기회를 단계적으로 제공하되, 성과 기반으로 승진/퇴출을 관리”하는 것.

Cold item 분포 비교 Figure 1: 자연 추천 vs AliBoost 적용 후 cold item의 일일 PV/Click 분포 변화

E) 제안 방법

E.1) Overall Framework 및 핵심 원칙

전체 incremental exposure 모델링:

  • 부스팅으로 얻은 노출() + 그 성과로 인한 자연 추천 증폭 효과
  • 는 CTR이 높을수록 지수적으로 증가 → 좋은 아이템은 자연 추천에서도 더 많이 노출

두 가지 핵심 원칙:

원칙수식의미
Performance-Driven BoostingCTR 높은 아이템에 더 많은 노출 할당
Non-Disturbance Principle부스팅 CTR이 카테고리 자연 CTR의 배 이상 유지

Non-Disturbance Principle이 중요한 이유: 부스팅이 기존 유저 경험을 해치면 안 된다. 부스팅된 아이템의 CTR이 자연 추천 CTR보다 최소 20% 높아야 한다는 안전 장치.

추천 상황 예시 Figure 2: 세 가지 추천 상황 — (a) 자연 추천만, (b) 무분별한 부스팅, (c) AliBoost 방식

E.2) Tiered Boosting Structure

E.2.1) 핵심 아이디어

Tiered Boosting의 핵심은 “한 번에 큰 예산을 주지 않고, 소규모 테스트 → 성과 검증 → 예산 확대를 반복” 하는 것이다.

왜 이런 구조가 필요한가? cold item은 잠재력을 모른다. 모든 cold item에 동일한 대규모 예산을 주면:

  • 저품질 아이템에 예산 낭비 (exit 없을 시 ROI -8.96%)
  • 고품질 아이템이 충분한 예산을 못 받음 (promotion 없을 시 ROI -13.12%)

비유하면 스타트업 투자 라운드 와 같다:

  • Stage 1 = Seed Round: 소규모 투자(적은 노출)로 아이템의 기본 성과 확인
  • Stage 2 = Series A: 검증된 아이템에 중규모 투자, 더 엄격한 기준 적용
  • Stage 3 = Series B: 고성과 아이템에 대규모 투자, 본격 스케일업

E.2.2) 구체적 동작 흐름

신규 아이템 진입
       │
       ▼
┌─ Potential Prediction으로 초기 Stage 결정 ──────────┐
│  P40 percentile rank 기준:                          │
│    - 하위 70% → Stage 1 (대부분의 아이템)             │
│    - 상위 70~90% → Stage 2 (잠재력 높은 아이템)       │
│    - 상위 10% → Stage 3 (최고 잠재력, 바로 대규모)     │
└────────────────────┬────────────────────────────────┘
                     ▼
┌─ Stage 1: 소규모 노출 예산 (B₁) ────────────────────┐
│  - 적은 수의 유저에게 노출                            │
│  - 이 Stage의 CTR 측정                              │
│  - 평가 기준: CTR ≥ γ¹ × 카테고리 평균 CTR           │
│    (γ¹이 가장 낮음 = 가장 관대한 기준)                 │
├──────────────────────────────────────────────────────┤
│  통과 → Stage 2로 승격    │  미달 → EXIT (부스팅 종료) │
└───────────┬───────────────┴──────────────────────────┘
            ▼
┌─ Stage 2: 중규모 노출 예산 (B₂ > B₁) ──────────────┐
│  - 더 많은 유저에게 노출                              │
│  - 평가 기준: CTR ≥ γ² × 카테고리 평균 CTR           │
│    (γ² > γ¹, 더 엄격한 기준)                         │
├──────────────────────────────────────────────────────┤
│  통과 → Stage 3로 승격    │  미달 → EXIT (부스팅 종료) │
└───────────┬───────────────┴──────────────────────────┘
            ▼
┌─ Stage 3: 대규모 노출 예산 (B₃ > B₂) ──────────────┐
│  - 대규모 유저에게 노출, 본격 스케일업                  │
│  - 평가 기준: CTR ≥ γ³ × 카테고리 평균 CTR           │
│    (γ³ > γ², 가장 엄격한 기준)                       │
├──────────────────────────────────────────────────────┤
│  완료 → 자연 추천으로 전환  │  미달 → EXIT             │
└──────────────────────────┴───────────────────────────┘

E.2.3) 승격/퇴출 판단 기준

각 Stage 에서의 판단:

여기서 각 요소의 의미:

  • : 아이템 가 Stage 에서 부스팅 노출을 통해 달성한 실제 CTR
  • : 아이템 가 속한 카테고리의 평균 CTR (예: “여성 의류” 카테고리 전체 평균)
  • : Stage 의 안전 계수.

카테고리 평균 CTR을 기준으로 쓰는 이유: 카테고리마다 CTR 수준이 다르다 (예: 식품 CTR 5% vs 가전 CTR 1%). 절대적인 CTR 임계값을 쓰면 불공정하므로, 같은 카테고리 내에서 상대 평가한다.

γ가 점점 커지는 이유: Stage가 올라갈수록 더 많은 예산을 투입하므로, 그만큼 더 높은 성과를 요구해야 예산 효율을 유지할 수 있다. Stage 1에서는 “카테고리 평균만 넘으면 OK”이고, Stage 3에서는 “카테고리 평균의 X배는 돼야 이 큰 예산을 쓸 가치가 있다”는 뜻.

E.2.4) 총 부스팅 예산

Stage를 통과할 때마다 해당 Stage의 예산 이 누적된다. 3개 Stage를 모두 통과한 아이템은 전체 예산을 받고, Stage 1에서 탈락하면 만 소비된 셈.

E.2.5) 왜 3단계가 최적인가?

설정CTRROIHot Item Count
Stage 없음 (고정 예산)기준기준기준
2 Stages+6.23%+6.64%+3.63%
3 Stages+9.22%+13.21%+8.96%
4 Stages+9.28%+13.46%+8.78%

2 → 3 Stage: ROI +6.57%p 개선. 3 → 4 Stage: ROI +0.25%p만 개선. Stage가 많아지면 검증 단계가 촘촘해지지만, 각 Stage에서 충분한 데이터를 모으기 어려워져 판단의 신뢰도가 떨어진다. 또한 운영 복잡도가 증가한다.

참고: 논문에서 stage별 구체적인 예산 크기(의 절대값), 각 γ값, stage 지속 기간은 공개하지 않았다. 알리바바 내부 운영 수치로 추정된다.

E.3) Stacking Fine-Tuning Cold Predictor

E.3.1) Stacking 구조

Foundation CTR 모델의 출력을 입력 feature로 재활용 하는 stacking 방식:

┌─ Foundation CTR Model (frozen) ──────────────┐
│  User Embedding (eᵤ)  +  User Features (fᵤ)  │
│  Item Embedding (eᵢ)  +  Item Features (fᵢ)  │
│              ▼                                 │
│       ŷ_foun (Foundation CTR)                  │
└──────────────┬────────────────────────────────┘
               │
               │  ┌─ Cold-Specific Features ────────────┐
               │  │  Cold Item Embedding (eᵢ_cold)       │
               │  │  Boost Features (메타데이터, 컨텍스트)  │
               │  │  Natural Features (실시간 스트림)      │
               │  └───────────┬─────────────────────────┘
               │              │
               ▼              ▼
┌─ Stacking Cold Predictor ────────────────────┐
│  Concat: [ŷ_foun, eᵤ, fᵤ, eᵢ_cold,          │
│           fᵢ_boost, fᵢ_natural]               │
│              ▼                                 │
│         MLP (L layers)                         │
│              ▼                                 │
│       ŷ_cold (Cold CTR)                        │
└───────────────────────────────────────────────┘

Stacked feature vector:

  • 왜 Stacking인가? Foundation 모델은 전체 플랫폼 최적화된 거대 모델(0.4B 유저, 142B 인터랙션으로 학습). 이걸 fine-tune하면 warm item 성능이 떨어진다. Stacking으로 Foundation은 freeze하고 그 위에 cold-specific layer만 학습하면 두 마리 토끼를 잡을 수 있다.

E.3.2) 학습

다양한 데이터 소스 활용: e-commerce, 라이브 스트리밍, 숏비디오 등 여러 시나리오의 cold item 데이터를 함께 학습:

  • : 데이터 소스별 가중치 (시나리오마다 중요도 다름)
  • Binary Cross-Entropy loss 사용

E.3.3) Potential Prediction (잠재력 예측)

아이템의 초기 Stage 배정을 위해 잠재력을 정량화:

  1. 샘플 유저 집합 에 대해 CTR 분포 계산:
  2. P40 (40th percentile) 을 잠재력 지표로 사용 — 중앙값보다 보수적이어서 과대평가 방지
  3. P40 기반 percentile rank로 Stage 배정:

왜 P40인가? 평균이나 중앙값(P50) 대신 P40을 쓰는 이유는, cold item은 소수의 유저에게만 매우 높은 CTR을 보일 수 있어서 상위 값이 과대평가를 유발할 수 있기 때문이다. P40은 “적어도 60%의 유저에게 이 정도 성과는 낸다”는 보수적 추정.

E.4) Item-Oriented Bidding Boosting

E.4.1) 입찰 구조

각 (user, item) 쌍에 대해 입찰(bid)과 가격(price)을 비교:

  • Bid = (Cold CTR 예측값) → 아이템이 이 유저에게 얼마나 관련 있는가
  • Price = → 노출의 “비용”

직관적으로: CTR 예측이 높은 (user, item) 쌍에만 노출하되, 예산 소비 속도와 유저 상태를 고려해 가격을 동적 조절.

E.4.2) Boosting Speed Factor ()

예산 소비 속도를 목표에 맞추기 위한 PID 스타일 제어:

여기서 (실제 속도 / 목표 속도).

  • 예산을 너무 빨리 쓰면 () → Price 올려서 노출 줄임
  • 예산이 남으면 () → Price 내려서 노출 늘림
  • 로 현재/과거 에러를 가중 평균 → 급격한 변동 방지

E.4.3) User Preference Factor ()

유저의 “피로도”와 “활성도”를 결합:

요소설명효과
연속 노출 대비 클릭 없는 횟수피로한 유저 → Price 높아짐 → 노출 줄어듬
10단계 활성도 등급 ()비활성 유저 → Price 높아짐 → 노출 줄어듬

핵심: 활성 유저 & 피로하지 않은 유저에게 집중 노출하여 CTR 극대화. “클릭 안 하는 사람에게 계속 보여주는 건 예산 낭비.”

전체 아키텍처 Figure 3: AliBoost 전체 아키텍처

F) 벤치마크/데이터셋

데이터셋유저아이템카테고리인터랙션기간
Foundation CTR 학습0.4B0.3B24,568142B6개월
Cold Fine-Tuning0.25B1.5B9,5677.1B-
Online A/B Test0.3B/일1M/일-10B/일-

배포 환경:

  • 120K QPS, <20ms latency
  • 15분 간격 모델 업데이트
  • 6개월간 10억+ 아이템 cold-start 처리

G) 실험 결과

G.1) 전체 성과 (RQ1)

G.1.1) 플랫폼 전체

MetricPVClickPayGMV
전체+2.01%+4.51%+3.96%+4.69%

G.1.2) Cold Item 기간별 개선

기간PVClickPayGMV
3일+16.50%+8.30%+6.50%+17.90%
7일+29.20%+19.60%+18.20%+25.30%
30일+44.93%+44.59%+40.16%+40.59%
60일+46.36%+55.15%+56.24%+52.06%
90일+51.80%+57.65%+55.13%+58.53%
120일+58.94%+61.68%+65.71%+67.75%
150일+63.01%+73.47%+63.76%+69.48%
180일+65.87%+76.09%+74.26%+72.03%

시사점: 시간이 지날수록 개선폭이 커진다. 이는 부스팅이 단순히 단기 노출 증가가 아니라, 자연 추천 증폭 효과( 함수)를 통해 복리처럼 누적 되기 때문이다.

G.1.3) 41.1% → 24.5%

부스팅 전후, 30일 내 일 노출 10회 미달 cold item 비율이 41.1% → 24.5% 로 약 40% 감소.

G.2) Tiered Boosting 전략 효과 (RQ2)

설정CTRPayGMVTraffic ShareROIHot Item Count
w/o Exit-6.32%-4.33%-6.39%-10.23%-8.96%-11.89%
w/o Promotion-4.21%-5.12%-4.46%-11.22%-13.12%-8.53%
2 Stages+6.23%+5.56%+3.56%+4.56%+6.64%+3.63%
3 Stages+9.22%+10.26%+6.53%+7.25%+13.21%+8.96%
4 Stages+9.28%+10.36%+6.98%+7.84%+13.46%+8.78%

실무적 시사점:

  • Exit 규칙 제거 시 ROI -8.96%: 저품질 아이템에 예산 낭비
  • Promotion 규칙 제거 시 ROI -13.12%: 고품질 아이템이 충분한 예산을 못 받음
  • 3 → 4 Stage 전환의 marginal gain이 미미 (CTR +0.06%p, ROI +0.25%p). 운영 복잡도 대비 3 Stage가 최적

G.3) Stacking Fine-Tuning 효과 (RQ3)

MetricOffline AUC3일 PV3일 PCTR7일 PV7일 PCTR
개선+2.24%+8.30%+10.71%+7.39%+11.40%

AUC +2.24%는 cold item에 대한 랭킹 품질이 의미있게 향상됨을 보여준다. PCTR(Predicted CTR) 개선이 PV 개선보다 크다는 것은 더 정확한 예측 → 더 적합한 유저에게 노출 → CTR 향상 의 선순환을 의미.

G.4) Item-Oriented Bidding 효과 (RQ4)

설정CTRPayGMVTraffic ShareROIHot Count
w/o Bidding 전체-45.31%-38.21%-42.11%-8.96%-21.39%-9.36%
w/o Speed Factor-18.11%-14.98%-21.93%-4.09%-8.09%-4.67%
w/o User Pref Factor-28.38%-20.81%-26.03%-5.69%-11.31%-3.56%

핵심 발견:

  • Bidding 제거 시 CTR -45.31% — 가장 치명적. 입찰 없이 무작위로 노출하면 관련 없는 유저에게 보여줘서 CTR 급락
  • User Preference Factor가 Speed Factor보다 영향이 큼 (CTR -28% vs -18%). “누구에게 보여줄까”가 “얼마나 빨리 보여줄까”보다 중요
  • Speed Factor 제거 시 GMV -21.93%: 예산이 불균등하게 소비되어 일부 아이템은 과다 노출, 나머지는 노출 부족

G.5) Matthew Effect 완화 (RQ5)

순위7일14일21일30일
Top 100-71.6%-65.1%-53.8%-42.7%
Top 1000-56.3%-43.2%-36.9%-29.2%

해석:

  • 7일 후 Top 100 아이템의 71.6%가 교체 됨 — 기존 독점 아이템들이 새 아이템에 의해 대체
  • 시간이 지나면 교체율이 감소하는 건 자연스러운 현상 — 진짜 인기 있는 아이템은 살아남아야 함
  • AliBoost가 “부익부” 루프를 깨고 신규 아이템에게 공정한 경쟁 기회 를 제공한다는 증거

G.6) Offline Baseline 비교 (Appendix)

ModelCold AUCWarm AUCAll AUC
DeepFM0.65230.71120.7002
DIN0.66340.72450.7123
ALDI0.67560.72890.7156
ColdLLM0.68340.71560.7078
AliBoost0.69890.73010.7212
  • Cold AUC에서 DeepFM 대비 +4.66%p, ColdLLM 대비 +1.55%p 개선
  • Warm AUC도 유지/소폭 개선 — Stacking 구조 덕분에 Foundation 모델 성능을 해치지 않음

G.7) 카테고리별 성과 (Appendix)

카테고리Click 개선
Pets+181%
Auctions+206%

일부 niche 카테고리에서는 200%+ 개선. 이런 카테고리는 원래 cold item 비율이 높아서 부스팅 효과가 극대화된 것.

배포 아키텍처 Figure 5: AliBoost 배포 아키텍처

H) 실무적 시사점 종합

  1. Cold-start는 모델 문제가 아니라 생태계 문제: CTR 예측 정확도를 올리는 것만으로는 부족. 노출 기회 자체를 체계적으로 관리해야 한다
  2. 단계적 검증이 핵심: 한 번에 큰 예산을 주는 것보다 3단계로 나눠서 성과 기반 승격/퇴출하는 것이 ROI 13% 더 높다
  3. Bidding 메커니즘이 가장 중요한 모듈: 제거 시 CTR -45%. “누구에게 보여줄지” 결정이 전체 프레임워크의 핵심
  4. User Fatigue 관리 필수: 피로한 유저에게 계속 cold item을 보여주면 역효과. User Preference Factor가 두 번째로 중요한 요소
  5. Non-Disturbance Principle (): 부스팅이 기존 유저 경험을 해치지 않아야 한다는 안전 장치가 플랫폼 전체 메트릭 개선의 전제 조건
  6. Stacking > Fine-tuning: Foundation 모델을 직접 fine-tune하면 warm item 성능이 떨어진다. Stacking으로 cold-specific layer만 학습하는 것이 실용적

I) Related

J) References