discount factor

DRN - A Deep Reinforcement Learning Framework for News Recommendation

Abstract 뉴스 추천을 위한 딥러닝 기반의 강화 학습 프레임워크를 제안한다. news feature 들과 user 의 preferences 의 변동성 (dynamic) 을 설명하는 것은 상당히 어렵다. 기존에도 이를 다루는 방식들이 있었지만 다음과 같은 세 가지 중요 이슈가 있다. 현재 reward(CTR) 에 대해서만 모델링이 가능 대부분 click 또는 no click labels ...

expected return

여기서 γ 는 감가율 discount factor 라 부름 (0≤γ≤1) 좀 더 general 하게 다음과 같이 쓴다.

Markov Reward Process

...다. MRP 는 tuple (S, P, R, γ) 로 충분히 표현이 가능하다. 여기서 S 는 states 집합, P 는 전이 확률 행렬, R 은 보상 함수 그리고 γ [0, 1] 은 discount factor 이다. Related References

Zzong's Notes

탐색기

discount factor

Discount Factor

링크된 언급

탐색기

discount factor

Discount Factor

링크된 언급

함께 보면 좋은 글