Zzong's Notes

Home

❯

RL

❯

Reinforcement Learning

Reinforcement Learning

2026년 6월 14일1 min read

Reinforcement Learning

machine learning 기법 중 하나.

B) For RS

A Survey on Reinforcement Learning for Recommender Systems

C) Related

  • Markov Decision Process, dynamic programming, Monte Carlo Method, temporal difference
    • N-step Bootstrapping
  • Policy Gradient
  • Multi-Armed Bandit

링크된 언급

7
asynchronous dynamic programming

Asynchronous Dynamic Programming 일반적으로 Reinforcement Learning 에서 DP 를 얘기하면, synchronous DP (동기 DP) 를 의미하는 것이다. 동기 DP 는 state set 전체에 대한 sweeps 이 필요하다는 것이 단점이다: ...

bootstrapping

...정 값을 반복적으로 계산할 수 있다. 이러한 과정을 bootstrapping 이라 한다. 다만, 이렇게 수행하는 방식은 states 가 너무 많은 경우 실행이 불가능하다. 많은 Reinforcement Learning 방법은 DP 에서 요구되는 완전하고 정확한 환경 모델 (MDP) 없이도 bootstrapping 을 수행한다. D) Related bagging

expected return

Expected Return 누적 보상을 의미하며, Reinforcement Learning 에서 agent 의 목표는 이 값을 최대화 하는 것을 의미한다. 끝이 있는 학습 (episode 가 존재하는 학습, episodic tasks) 에서는 return G t 다음...

Exploration by Random Network Distillation

Exploration by Random Network Distillation RL methods work by maximizing the expected return of a policy. In reality it is often impractical to engineer d...

Multi-Armed Bandit

...dit 은 어떤 슬롯머신이 어떤 수익률을 가지는지 모를 때, 탐색 (Exploration) 과 활용 (Exploitation) 을 적절히 사용하여 최적의 수익을 찾아내고자 하는 Reinforcement Learning 알고리즘을 의미한다. A.1) 수학적 정의 time step t 의 state \theta t 에서, time step t 에서의 각 arm i 의 시행 횟수 \gamma i ...

RLHF

... repositories for RLHF in PyTorch that grew out of this. The primary repositories are Transformers Reinforcement Learning (TRL), TRLX which originated as a fork of TRL, and Reinforcement Learning for Language models (RL4...

SAGE - Steerable Agentic Data Generation for Deep Search with Execution Feedback

...지만 실험—더 큰 모델에서의 효과 미검증 Wikipedia corpus만 사용—법률, 과학 등 도메인 특화 corpus에서의 검증 필요 H) Related Deep Search Reinforcement Learning I) References SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback (arX...

  • Reinforcement Learning
  • B) For RS
  • C) Related