action-value function

링크된 언급

10

advantage function

Advantage Function advantage function 은 q-value 값과 state-value function 값의 차이를 의미한다.

Bellman optimality equation

A.2) For Action-value Function optimal action-value function q 에 대한 Bellman Optimality Equation 은 다음과 같다.

Deep Reinforcement Learning with Double Q-Learning

...uble Q-learning 알고리즘을 arbitrary function approximation 으로 일반화하는 Double DQN 알고리즘을 제안한다. 제안된 알고리즘은 기존 DQN 의 q-value 에 대해서 overestimation 함으로써 성능에 안좋은 영향을 미치는 이슈를 해소시킬 수 있다. Background Q-Learning policy π 가 주어질 때, state s ...

DRN - A Deep Reinforcement Learning Framework for News Recommendation

...모리에 저장되고, 매 1 시간마다 agent 는 메모리의 로그를 활용해 추천 알고리즘을 업데이트한다. D) Method D.1) Deep Reinforcement Recommendation q-value 는 다음과 같이 계산할 수 있다.

Incremental Implementation

Incremental Implementation Qₙ 는 action a 를 n-1 번 선택한 이후의 action-value function 의 추정값을 의미한다.

Monte Carlo Method(RL)

policy improvement action-value function q π 를 찾았기 때문에, 모든 s S 에 대해서, 바로 다음과 같은 action 을 취하면 된다.

Policy Gradient

Policy Gradient Policy 와 value 둘 다에 대한 적절한 학습 방법을 actor-critic methods 라 부른다. Actor: Learned policy Critic: learned value Function (일반적으로 state-value function 을 의미한다.) B) Why Policy Gradients? Deep Q Learning 은 action sp...

policy improvement

다수의 action 이 허용되는 stochastic case 에서는 하나만 선택하지 않고, 동일한 q value 값을 가지는 모든 a 에 대해 비율을 나눠준다. 예를 들어 grid 의 경우 동서남북 중, 남북이 같다면 0.5, 0.5 비율로 이렇게 기존의 policy 에 대한 value functio...

...ation 을 위한 -greedy 와 같은 또 다른 policy 가 존재하기 때문이다. Q 에서 유도되는 policy 에 상관없이 amax\ Q(St+1,a) 를 통해서 최적의 action-value function 를 통해 Q 를 update 한다. A.1) Algorithm state-action 조합에 대한 quality(q-value) 를 저장하고 있는 함수를 사용한다.

SARSA SARSA 는 state-value function 값 말고, action-value function 값을 이용하여 policy 를 improve 하는 temporal difference 방법이다. 즉, state-action 쌍으로 부터 다른 state-action 쌍으로 넘...