Exploration by Random Network Distillation
RL methods work by maximizing the expected return of a policy. In reality it is often impractical to engineer dense reward functions for every task one wants an RL agent to solve.
B) Methods
B.1) Exploration Bonus
(time 의 transition 에서 발생하는) 기존 보상 방식을 변경
- : exploration bonus
- : 환경 보상
B.2) Count-based Exploration Methods
A tabular setting with a finite number of states
또는 와 같은 방식으로 보너스를 정의
- 는 state 에 대한 방문 횟수
B.3) Non-tabular Setting
density model 을 exploration bonus 로 생각
C) Random Network Distillation
두 가지 신경망이 존재
- target network: fixed and randomly initialized observation 을 받아서 embedding 을 출력;
predictor network: trained on data collected by the agent target 과 유사