Zzong's Notes
Search
검색
다크 모드
라이트 모드
탐색기
reinforcement_learning
60건의 항목
2026년 6월 14일
Actor–Critic Method
reinforcement_learning
2026년 6월 14일
Bellman Equation
reinforcement_learning
linear_algebra
2026년 6월 14일
Bellman optimality equation
reinforcement_learning
2026년 6월 14일
DP (Reinforcement Learning)
reinforcement_learning
2026년 6월 14일
Deep Q-Network
reinforcement_learning
deep_learning
2026년 6월 14일
EXP3
reinforcement_learning
MAB
2026년 6월 14일
Expected SARSA
reinforcement_learning
2026년 6월 14일
Exploring Starts
reinforcement_learning
2026년 6월 14일
Human-level control through deep reinforcement learning
reinforcement_learning
deep_learning
2026년 6월 14일
Incremental Implementation
reinforcement_learning
algorithm
2026년 6월 14일
Markov Chain
reinforcement_learning
probability_distribution
2026년 6월 14일
Markov Decision Process
reinforcement_learning
2026년 6월 14일
Markov Reward Process
reinforcement_learning
2026년 6월 14일
Markov property
reinforcement_learning
2026년 6월 14일
Monte Carlo Method(RL)
reinforcement_learning
2026년 6월 14일
Policy Gradient
reinforcement_learning
2026년 6월 14일
Q-learning
reinforcement_learning
2026년 6월 14일
REINFORCE
reinforcement_learning
2026년 6월 14일
Reinforcement Learning
reinforcement_learning
MAB
2026년 6월 14일
S-MDP
reinforcement_learning
2026년 6월 14일
SARSA
reinforcement_learning
2026년 6월 14일
action-value function
reinforcement_learning
2026년 6월 14일
advantage function
reinforcement_learning
2026년 6월 14일
discount factor
reinforcement_learning
2026년 6월 14일
dynamics
reinforcement_learning
2026년 6월 14일
epsilon-greedy algorithm
reinforcement_learning
algorithm
MAB
2026년 6월 14일
every-visit MC
reinforcement_learning
2026년 6월 14일
expected return
reinforcement_learning
2026년 6월 14일
exploration
reinforcement_learning
2026년 6월 14일
first-visit MC
reinforcement_learning
2026년 6월 14일
partially observable Markov decision process
reinforcement_learning
2026년 6월 14일
policy evaluation
reinforcement_learning
2026년 6월 14일
policy improvement
reinforcement_learning
2026년 6월 14일
policy
reinforcement_learning
2026년 6월 14일
state-value function
reinforcement_learning
2026년 6월 14일
temporal difference
reinforcement_learning
2026년 6월 14일
value function
reinforcement_learning
2026년 6월 14일
value iteration
reinforcement_learning
DP
2026년 6월 14일
value-based method
reinforcement_learning
2026년 6월 14일
visit
reinforcement_learning
word
2026년 6월 14일
dynamic programming
reinforcement_learning
2026년 6월 14일
RLHF
LLM
reinforcement_learning
2026년 6월 14일
UCB
MAB
reinforcement_learning
2026년 6월 14일
bootstrapping
ensemble
statistic
sampling
reinforcement_learning
2026년 6월 14일
GRPO
reinforcement_learning
LLM
2026년 6월 14일
Proximal Policy Optimization
reinforcement_learning
LLM
2026년 6월 14일
Making contextual decisions with low technical debt
contextual_bandit
machine_learning
paper_review
reinforcement_learning
2026년 6월 14일
DRN - A Deep Reinforcement Learning Framework for News Recommendation
paper_review
reinforcement_learning
WWW
2026년 6월 14일
Deep Exploration via Bootstrapped DQN
Google
ensemble
paper_review
reinforcement_learning
2026년 6월 14일
Deep reinforcement learning for search, recommendation, and online advertising - a survey
paper_review
recommendation_system
reinforcement_learning
survey
2026년 6월 14일
Exploration by Random Network Distillation
paper_review
reinforcement_learning
2026년 6월 14일
Exploring compact reinforcement-learning representations with linear regression
MAB
linear_regression
paper_review
reinforcement_learning
2026년 6월 14일
Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning
KDD
deep_learning
paper_review
recommendation_system
reinforcement_learning
y2018
2026년 6월 14일
Reinforcement Learning for Slate-based Recommender Systems - A Tractable Decomposition and Practical Methodology
paper_review
reinforcement_learning
2026년 6월 14일
Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs
LLM
RLVR
paper_review
reinforcement_learning
2026년 6월 14일
Solving Continual Combinatorial Selection via Deep Reinforcement Learning
IJCAI
deep_learning
paper_review
reinforcement_learning
y2019
2026년 6월 14일
RLlib
reinforcement_learning
python
2026년 6월 14일
Multi-Armed Bandit
MAB
reinforcement_learning
2026년 6월 14일
Pessimistic Reward Models for Off-Policy Learning in Recommendation
reinforcement_learning
recommendation_system
2026년 6월 14일
method of moments
MAB
reinforcement_learning