방법론

본 논문에서 제안하는 검색 랭킹 모델은 Learning-to-Rank framework 기반으로 학습합니다. 모델의 최적화는 Walmart.com의 실제 검색 데이터를 활용하며, 다양한 사용자 행동 로그를 반영합니다. 랭킹 성능 향상을 위해서는 고품질 특성(feature)뿐만 아니라, 목적에 맞게 설계된 라벨(label)이 중요합니다. 본 연구에서는 LLM을 이용해 라벨과 특성을 효과적으로 생성·활용하는 방법에 집중하였습니다.

A.1) 라벨 설계

LTR 모델 학습에는 listwise 접근 방식을 채택하며, NDCG를 최적화 목표로 설정합니다. 이때 각 상품의 랭킹 점수 산출에는 두 가지 주요 요소가 반영됩니다: 콘텐츠 기반 적합도와 참여(engagement) 기반 적합도입니다.

콘텐츠 기반 적합도는 제품의 속성(예: 제목, 설명, 브랜드, 색상 등)이 쿼리와 얼마나 일치하는지 평가합니다.
참여 기반 적합도는 사용자가 해당 제품을 실제로 클릭, 장바구니 담기, 구매 등으로 얼마나 상호작용했는지에 따라 결정됩니다.

각 쿼리-상품 그룹 $G = {p_{1}, p_{2}, ..., p_{∣ G ∣}}$ 에 대해 다음과 같이 라벨을 부여합니다:

y_{q, p}^{(G)} = σ (C_{q, p}) \cdot E_{q, p}^{(G)}

여기서

$C_{q, p} \in [0, 1]$ 은 LLM이 추론한 쿼리-상품 페어 $(q, p)$ 의 콘텐츠 기반 적합도 점수입니다.
$σ (\cdot)$ 는 콘텐츠 점수에 적용되는 변환 함수입니다.
$E_{q, p}^{(G)}$ 는 해당 그룹 내에서의 참여 기반 적합도로서 구매 > 장바구니 > 클릭 > 비노출 순으로 가중치를 둡니다.

참여 점수( $E$ )는 실제 사용자 로그 데이터를 바탕으로 하기에 객관적인 반면, 콘텐츠 점수( $C$ )는 의미 해석에 의존하기 때문에 다소 주관적일 수 있습니다. 대규모 쿼리-상품 데이터셋에서는 사람이 직접 모든 케이스를 평가하기 어렵기 때문에 LLM이 예측한 콘텐츠 관련성 점수를 활용하는 것이 효율적입니다.

이를 위해 Mistral 7B LLM을 내부 인력의 수작업 평가 데이터를 활용해 크로스 엔트로피 손실 함수로 파인튜닝하였습니다:

L_{q, p} = - r_{q, p} lo g \overset{r}{^}_{q, p} - (1 - r_{q, p}) lo g (1 - \overset{r}{^}_{q, p})

여기서 $r_{q, p}$ 는 사람 평가 결과이며 $\overset{r}{^}_{q, p}$ 은 LLM 예측값입니다. 이 과정을 거친 LLM은 $[0, 1]$ 사이의 임의 쿼리-상품 페어별 콘텐츠 관련성 점수를 출력할 수 있습니다.

콘텐츠와 참여 요소를 곱하는 방식은 두 측면을 모두 반영하지만, 한쪽 성능이 올라가면 다른 한쪽 성능이 다소 저해되는 trade-off가 발생할 수 있습니다.

A.2) 적합도 변환 방식

콘텐츠와 참여 적합도를 비교할 때,

콘텐츠 적합도( $C$ )는 상품 자체 속성에서 비롯된 내재적(endogenous) 요소이며,
참여 적합도( $E$ )는 실제 사용자 행동이라는 외재적(exogenous) 요소입니다.

따라서 본 연구에서는 콘텐츠 관련성을 일종의 ‘가드레일’로 삼아, 콘텐츠 관련성이 확연히 차이나는 상품들은 반드시 상위에 노출되도록 하고, 동일 구간 내에서는 사용자 참여 데이터가 랭킹 결정에 더 큰 영향을 주도록 설계했습니다.

이를 위해 다음과 같은 시그모이드(sigmoid) 변환 함수를 도입하였습니다:

σ (C; α, β) = \frac{1}{1 + exp ( - α ( C - β ))}

여기서 $C$ 는 LLM이 추론한 콘텐츠 관련성 점수이며, $α$ , $β$ 는 곡선 중심과 기울기를 조정하는 파라미터입니다. 시그모이드 변환을 적용하면 중간 정도 값을 가진 상품들은 양극단으로 밀려나며, 각 구간 끝부분에서는 평탄하게 유지되어 그 안에서는 사용자의 행동 데이터가 상대적으로 더 중요하게 작용하도록 만듭니다.

다음 그림(Figure 1)은 여러 시그모이드 곡선 변환 결과를 비교한 것입니다. 쿼리-상품 페어(QP)를 원본 LLM 콘텐츠 관련성 값 기준으로 세 구간({ $R_{1}$ , $R_{2}$ , $R_{3}$ })으로 분류할 수 있습니다. 임계값 $0 < c_{1} < c_{2} < 1$ 이라 할 때,

$R_{1}$ : $0 \leq C_{q, p} < c_{1}$ , 즉 낮은 콘텐츠 관련성을 가진 QP들—시그모이드 변환 후 더욱 낮은 값들로 평탄화되며 이 구간 내 QP들의 순서는 주로 참여 데이터( $E_{q, p}^{(G)}$ )가 결정합니다.
$R_{2}$ : $c_{1} \leq C_{q, p} < c_{2}$ , 즉 중간 정도의 콘텐츠 관련성을 가진 QP들—이 영역은 …

제품 검색 순위의 상위 소수 위치, 예를 들어 상위 5개 또는 10개는 전체 수백~수천 개의 후보 제품 중에서도 가장 중요한 위치를 차지합니다. 이처럼 극명한 중요도 차이는, 최상위에 놓일 제품일수록 콘텐츠 관련성이 가장 뛰어난 상품이 선별되어야 한다는 점을 강조합니다. 따라서 $R_{3}$ 구간이 좁지만 엄격한 기준을 적용하면, 실제로 최상위에 노출될 제품들의 콘텐츠 품질을 높일 수 있습니다. 이 방식은 $R_{3}$ 에 속하지 않은 제품도 만약 매우 높은 사용자 반응(engagement) 점수를 가진다면 상위로 노출될 수 있도록 허용합니다. 결과적으로 콘텐츠 관련성 기준을 엄격하게 설정하면, 전체 랭킹 모델의 콘텐츠 기반 관련성 성능 향상에 도움이 될 수 있습니다.

B) 특성(feature) 생성

랭킹 모델 학습에는 매우 다양한 특성을 활용합니다. 각 특성은 사용자 행동(engagement) 기반 혹은 콘텐츠 기반으로 구분됩니다. 콘텐츠 특성의 경우 단순 텍스트 매칭에서 얻는 희소(sparse) 특성뿐 아니라, LLM을 이용해 생성한 밀집(dense) 특성도 포함됩니다.

여기서 주목할 점은 라벨 생성과 특성 생성 시 사용하는 언어모델 크기의 차이입니다. 라벨 생성 과정은 오프라인에서 이루어져 지연(latency)이 중요하지 않으므로 복잡하고 큰 LLM을 써서 성능 향상을 도모할 수 있습니다. 반면, 모델 학습 및 추론 시 사용되는 특성(feature)은 실시간으로 추론 과정에서 계산되므로 LLM이 너무 크면 시스템 지연이 발생하는 문제가 있습니다. 따라서 적절한 수준의 LLM 크기를 선택해야 합니다.

이를 위해 내부에 축적된 쿼리 및 상품 속성과 전문가 검토 데이터를 활용하여, cross-encoder 프레임워크 기반 중형 BERT 계열 모델을 트레이닝해 랭킹 모델 학습 및 추론 단계에서 사용할 콘텐츠 관련 특성을 생성했습니다.

C) 실험 및 평가

앞서 설명한 설계 방안을 바탕으로, 총 7종의 랭킹 모델(기준선 1종 + 변형모델 6종)을 훈련했습니다.

Baseline: LLM 대신 XGBoost 모델과 소수의 콘텐츠 특성을 활용해 콘텐츠 관련도 점수를 산출하여 라벨에 사용하며, cross-encoder(XE) 기반 특성을 포함하지 않습니다.
Variant: LLM 기반 라벨/특성을 도입하거나 cross-encoder 기반 특성을 훈련·추론 과정에 포함하는 여러 변형 버전을 구성했습니다.
- Variant L/LX: LLM이 예측한 값을 그대로 라벨 내 콘텐츠 관련 점수로 사용
- Variant $σ_{c}$ LX: $α = 12$ , $β = 0.5$ 로 sigmoid 변환 적용 (고/저 값만 극대화)
- Variant $σ_{r}$ LX: $α = 10$ , $β = 0.7$ (중심 우측 이동 - 더 엄격한 고점 기준)
- Variant $σ_{l}$ LX: $α = 10$ , $β = 0.3$ (중심 좌측 이동 - 더 완화된 고점 기준)

학습 데이터 내 모든 쿼리-상품 쌍에 대해 원본 LLM 예측 점수와 sigmoid 변환 후 분포는 Figure 2에서 볼 수 있습니다.

변형모델들의 예측 성능 평가는 두 가지 관점으로 진행했습니다.

콘텐츠 기반 관련성: 오프라인 휴먼 저지먼트(인간 평가)를 통해 측정
사용자 반응 기반 관련성: 온라인 인터리브드 A/B 테스트를 통해 검증

C.1) 오프라인 콘텐츠 관련성 평가

변형모델 각각의 순위 결과가 실제로 얼마나 높은 콘텐츠 연관도를 보이는지 평가하기 위해 NDCG 지표를 활용하여 오프라인 인간 평가를 실시했습니다. 이 평가는 모든 세그먼트를 대표할 만한 검색 쿼리를 대량 샘플링하는 것부터 시작됩니다.

추론 시 임베딩 크기를 최대 12배, 메모리를 최대 100배 줄이면서도 정확도를 높이는 NEAR² 제안

Zzong's Notes

탐색기

Towards More Relevant Product Search Ranking Via Large Language Models

방법론

A.1) 라벨 설계

A.2) 적합도 변환 방식

B) 특성(feature) 생성

C) 실험 및 평가

C.1) 오프라인 콘텐츠 관련성 평가

링크된 언급

목차

탐색기

Towards More Relevant Product Search Ranking Via Large Language Models

방법론

A.1) 라벨 설계

A.2) 적합도 변환 방식

B) 특성(feature) 생성

C) 실험 및 평가

C.1) 오프라인 콘텐츠 관련성 평가

링크된 언급

함께 보면 좋은 글

목차