paper link

Abstract

popularity-opportunity bias(POB) 를 조사하기 위해 세 파트로 나눠서 연구를 진행함

Popularity-opportunity Bias 란?

사용자가 동일한 아이템을 둘 다 좋아하지만, 인기가 많은 아이템에 대해서 더 자주 추천되는 현상을 보이는 bias

Three-part Study

  1. 실험적으로 POB 가 MF 모델에도 존재함을 확인함
  2. (1) 의 내용을 바탕으로 하여 이론적으로 MF 모델이 해당 bias 를 생성하는것을 보임
  3. 전처리와 후처리 알고리즘을 통해 이 bias 를 완화하는 것을 보임

Introduction

기존 popularity bias 를 다룬 내용들은 인기 아이템이 높은 랭킹에 할당되고 덜 인기있는 아이템이 낮은 랭킹에 할당되는 것만 연구했다.

하지만 이러한 접근방법은 사용자의 선호도를 고려하지 않았다.

즉, 유저 선호도를 고려하지 않고 단순히 추천 결과 자체만으로는 bias 의 증거가 될 수 없다.

테스트 과정에서 POB 를 확인하기 위해서는 bias 를 측정하기 위해 어떻게 사용자 선호도를 알 수 있냐는 것이다. 이 논문에서는 선호도 확인을 위해 test data 를 활용했다고 한다 (from train-test data split).

User-side Popularity-opportunity Bias

한 유저가 두 아이템 A, B 에 대해서 상호작용 (click) 했다 하더라도, A 가 B 보다 더 인기있다면 A 를 상위 추천 결과에 올리는 bias

Item-side Popularity-opprtunity Bias

어떤 아이템 을 소비한 모든 사용자에 대해서 의 ranking 을 고려했을때, 인기 있는 아이템의 평균 ranking 이 상대적으로 매우 높은 편이였다.

또한, top-100 에 들어갈 확률도 매우 높았다.

Data-Driven Study

Measuring uPO and iPO Bias

uPO Bias 측정

Spearman’s rank correlation(SRC) coefficient 을 활용한 metric 계산

  • 은 아이템 인기도를 의미: 각 아이템에 대해서 발생한 feedback 횟수
  • 은 test dataset 에 존재하는 유저가 상호작용한 아이템 셋 을 기준으로, 를 대상으로한 모델의 추천 ranking positions (from 0 to - 1)

높은 값일수록 사용자가 좋아하는 아이템을 낮은 ranking 에 놓는다는 의미가 된다 (높은 popularity bias).

iPO Bias 측정

iPO bias 는 matched user 에 대해서 낮은 인기를 가진 아이템의 기대 랭킹이 높은 인기를 가진 아이템의 기대 랭킹보다 낮은지의 여부를 확인하는 것.

Debiasing Approaches

pre-processing, in-processing 그리고 post-processing 이 세가지로 나뉘어짐

여기서 전처리 (pre-processing) 접근 방법은 학습 데이터를 변경하는 방법인데, 해당 종류의 알고리즘들은 디자인하기 어렵고 알고리즘의 bias 를 제거하지 못하는 문제가 존재하므로 비효율적이다.

결과적으로 이 논문에서는 post 와 in-processing 접근 방식으로 포커스를 맞춘다.

Post-processing: Popularity Compensation (PC)

predicted user-item preference matrix 의 아이템쪽에 compenstation(약간의 인기도) 을 추가함으로써 더 높은 ranking position 을 가지도록 하는 방법

인기 보상 Debiasing 알고리즘

  1. 사용자 에 대한 predicted score 의 norm 을 계산
  • 는 training 데이터 (e.g. click 여부)
  • 는 predicted preference from MF or BPR
  • 는 학습 데이터에 포함된 가 상호 작용한 아이템 집합
  • 는 학습 데이터에 포함되지 않은 아이템의 score 만 고려하겠다는 의미
  1. 사용자 에 대한 아이템 의 the popularity compensation score 를 계산
  • : 낮은 인기도를 가진 아이템에 대해 더 많은 compensation
  • : 유저가 좋아할만한 아이템은 더 많이 compensation
  • : trade-off weight 로, 유저의 선호도 정도를 얼만큼 반영할지의 비율을 의미
    • 높은 값을 줄수록 선호도에 더 높은 비중
  1. 계산된 compensation score 를 scaling 하여 기존 선호도 예측 값 에 더해줌
  • : compenstation score 의 norm 값
  • : 사용자 에 대한 predicted score 가 높다면, 그만큼 높은 compensation score 를 부여해야 함
  • : 전체 PC 알고리즘에 대한 trade-off weight

My Opinion

제안된 방식은 이미 score prediction 이 존재한다고 가정하고 진행하지만, bandit 류 알고리즘은 계속해서 score 결과가 다르기 때문에 쉽게 적용하기 어려울 것

(2) 정도만 가져와서 score 계산에 진행하면 어떨까? 그러면 좀 좋을 것 같긴한데..

In-processing: Regularization

MF 모델 학습 시 loss function 에 regularization 을 추가하는 방식

이전 work 에서 영감을 받음: equal opportunity based recommendation fairness for different item groups (^665f88)

  • 는 MF 모델의 loss
  • 는 positive user-item pair 에 대한 predicted score matrix 와 해당하는 아이템 인기도 간 Pearson correlation 을 계산한 것.

References

Pre-processing Debiasing 관련

In-processing Debiasing