Zzong's Notes

reinforcement_learning

64건의 항목

2026년 7월 20일
Actor–Critic Method
- reinforcement_learning
2026년 7월 20일
Bellman optimality equation
- reinforcement_learning
2026년 7월 20일
Exploration and Exploitation trade-off
- MAB
- reinforcement_learning
2026년 7월 20일
Markov Decision Process
- reinforcement_learning
2026년 7월 20일
Monte Carlo Method(RL)
- reinforcement_learning
2026년 7월 20일
Policy Gradient
- reinforcement_learning
2026년 7월 20일
Q-learning
- reinforcement_learning
2026년 7월 20일
REINFORCE
- reinforcement_learning
2026년 7월 20일
SARSA
- reinforcement_learning
2026년 7월 20일
epsilon-greedy algorithm
2026년 7월 20일
first-visit MC
- reinforcement_learning
2026년 7월 20일
policy evaluation
- reinforcement_learning
2026년 7월 20일
policy iteration
- reinforcement_learning
- DP
2026년 7월 20일
value function
- reinforcement_learning
2026년 7월 20일
value iteration
- reinforcement_learning
- DP
2026년 7월 20일
Qwen-AgentWorld - Language World Models for General Agents
2026년 7월 20일
Solving Continual Combinatorial Selection via Deep Reinforcement Learning
2026년 7월 20일
Pessimistic Reward Models for Off-Policy Learning in Recommendation
- reinforcement_learning
- recommendation_system
2026년 6월 28일
Group Sequence Policy Optimization
2026년 6월 28일
Group Relative Policy Optimization
- reinforcement_learning
- LLM
2026년 6월 14일
Bellman Equation
- reinforcement_learning
- linear_algebra
2026년 6월 14일
Exploring compact reinforcement-learning representations with linear regression
2026년 6월 14일
DP (Reinforcement Learning)
- reinforcement_learning
2026년 6월 14일
Deep Q-Network
- reinforcement_learning
- deep_learning
2026년 6월 14일
EXP3
- reinforcement_learning
- MAB
2026년 6월 14일
Expected SARSA
- reinforcement_learning
2026년 6월 14일
Exploring Starts
- reinforcement_learning
2026년 6월 14일
Human-level control through deep reinforcement learning
- reinforcement_learning
- deep_learning
2026년 6월 14일
Incremental Implementation
- reinforcement_learning
- algorithm
2026년 6월 14일
Markov Chain
- reinforcement_learning
- probability_distribution
2026년 6월 14일
Markov Reward Process
- reinforcement_learning
2026년 6월 14일
Markov property
- reinforcement_learning
2026년 6월 14일
Reinforcement Learning
- reinforcement_learning
- MAB
2026년 6월 14일
S-MDP
- reinforcement_learning
2026년 6월 14일
action-value function
- reinforcement_learning
2026년 6월 14일
advantage function
- reinforcement_learning
2026년 6월 14일
discount factor
- reinforcement_learning
2026년 6월 14일
dynamics
- reinforcement_learning
2026년 6월 14일
every-visit MC
- reinforcement_learning
2026년 6월 14일
expected return
- reinforcement_learning
2026년 6월 14일
exploration
- reinforcement_learning
2026년 6월 14일
partially observable Markov decision process
- reinforcement_learning
2026년 6월 14일
policy improvement
- reinforcement_learning
2026년 6월 14일
policy
- reinforcement_learning
2026년 6월 14일
state-value function
- reinforcement_learning
2026년 6월 14일
temporal difference
- reinforcement_learning
2026년 6월 14일
value-based method
- reinforcement_learning
2026년 6월 14일
visit
- reinforcement_learning
- word
2026년 6월 14일
dynamic programming
- reinforcement_learning
2026년 6월 14일
RLHF
- LLM
- reinforcement_learning
2026년 6월 14일
UCB
- MAB
- reinforcement_learning
2026년 6월 14일
bootstrapping
2026년 6월 14일
Proximal Policy Optimization
- reinforcement_learning
- LLM
2026년 6월 14일
Making contextual decisions with low technical debt
2026년 6월 14일
DRN - A Deep Reinforcement Learning Framework for News Recommendation
2026년 6월 14일
Deep Exploration via Bootstrapped DQN
2026년 6월 14일
Deep reinforcement learning for search, recommendation, and online advertising - a survey
2026년 6월 14일
Exploration by Random Network Distillation
- paper_review
- reinforcement_learning
2026년 6월 14일
Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning
2026년 6월 14일
Reinforcement Learning for Slate-based Recommender Systems - A Tractable Decomposition and Practical Methodology
- paper_review
- reinforcement_learning
2026년 6월 14일
Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs
2026년 6월 14일
RLlib
- reinforcement_learning
- python
2026년 6월 14일
Multi-Armed Bandit
- MAB
- reinforcement_learning
2026년 6월 14일
method of moments
- MAB
- reinforcement_learning