Abstract
뉴스 추천을 위한 딥러닝 기반의 강화 학습 프레임워크를 제안한다.
news feature 들과 user 의 preferences 의 변동성 (dynamic) 을 설명하는 것은 상당히 어렵다. 기존에도 이를 다루는 방식들이 있었지만 다음과 같은 세 가지 중요 이슈가 있다.
- 현재 reward(CTR) 에 대해서만 모델링이 가능
- 대부분 click 또는 no click labels 외 사용자 feedback 을 고려하지 않음
- 사용자에게 비슷한 뉴스를 계속 추천해서 지루하게 만듦
위와 같은 문제를 해결하기 위해서 DQN 기반 추천 프레임워크를 제안하여 미래의 보상에 대해 explicitly 하게 모델링한다. 추가적으로 유저 귀환 패턴을 click 과 no click label 에 대한 보충으로 생각하여 user feedback 정보를 더 많이 확보한다. 그리고 효율적인 exploration 전략을 취해서 사용자에게 연관성이 높은 새로운 종류의 뉴스를 제안할 수 있다.
B) Introduction
논문에서 제안한 DQN 방식과 기존 강화학습을 이용한 방식의 차이점이 있다. MAB 기반 방식은 미래 보상에 대해서 명시적으로 모델링을 수행하지 않는다. 그리고 MDP 기반 방식은 state 표현을 위해 discrete 한 유저 로그를 사용하므로 대용량 시스템에 대하여 확장성이 부족하다.
각 유저의 활동성 점수를 유지하기 위해서, 제안한 방식은 user return 신호를 유저 feedback 정보로 활용한다.
exploration 을 위해서 Interactively Optimizing Information Retrieval Systems as a Dueling Bandits Problem 를 활용한다. 이는 현재 추천 결과의 이웃 아이템을 candidate 로 하여 랜덤 추천을 진행하기 위해서 사용한다. 이런 전략은 exploration 을 위해 전혀 관련없는 아이템을 랜덤하게 추천하는 것을 막기 위해 사용한다.
C) Deep Reinforcement RS
해당 논문에서 제안한 방식인 딥러닝 기반의 강화학습을 추천시스템에서 활용할때, 그 과정을 간략히 설명한다.

- environment: user & news pool
- agent: recommendation algorithm
- state: 사용자의 continuous feature representation
- action: 뉴스의 continuous feature representation
유저 가 뉴스를 요청할때마다 agent (추천 알고리즘) 이 candidate news pool 중에서 가장 best actions (top-k list) 을 선택하고, 유저 피드백을 보상으로 받는다. 특히, 보상은 click labels 과 유저 활동성의 추정값 (estimation) 으로 구성되어 있다.
모든 추천 결과와 피드백 로그는 agent 의 메모리에 저장되고, 매 1 시간마다 agent 는 메모리의 로그를 활용해 추천 알고리즘을 업데이트한다.
D) Method
D.1) Deep Reinforcement Recommendation
q-value 는 다음과 같이 계산할 수 있다.
여기서 값은 유저가 뉴스를 클릭했는지 여부에 따른 보상을 나타내고, 는 미래 보상에 대한 agent 의 projection (예측) 을 의미한다. 은 discount factor 를 의미한다.
구체적으로 DDQN 을 통해서 현재 state 가 주어졌을 때, timestamp 에서 를 선택할 경우 받게되는 전체 reward 의 예측값은 다음과 같다.
위 수식에서 와 은 서로 다른 DQN 의 parameter 집합들을 의미한다.