Markov Decision Process

MDP 는 sequential decision-making 문제를 풀기위한 모델을 설정할 때 사용할 수 있는 프레임워크를 의미한다.

A.1) MDP 구성 요소

MDP 는 Markov Reward Process 와 다르게 Action 이 추가된 구성을 가진다.

⟨ S, A, P, R, γ ⟩

MDP 의 time $t$ 는 굳이 시간에 대한 개념이 아니라 stages 로 생각하면 좋다.

Markov property: MDP 의 $S_{t}$ 와 $A_{t}$ 는 무조건 $S_{t - 1}$ 와 $A_{t - 1}$ 에 의해서만 영향을 받음

time step $t$ 에서 $a$ 를 통해 $s$ 에서 $s^{'}$ 으로 옮겨서 $r$ 를 받을 확률

p (s^{'}, r ∣ s, a) ≐ Pr {S_{t} = s^{'}, R_{t} = r ∣ S_{t - 1} = s, A_{t - 1} = a}

가능한 모든 dynamics $p$ 를 더하면 1 이 된다.

s^{'} \in S \sum r \in R \sum p (s^{'}, r ∣ s, a) = 1, for all s \in S, a \in A (s)

상태 전이 확률은 다음과 같이 계산된다.

p (s^{'} ∣ s, a) ≐ Pr {S_{t} = s^{'} ∣ S_{t - 1} = s, A_{t - 1} = a} = r \in R \sum p (s^{'}, r ∣ s, a)

Expected rewards

r (s, a) ≐ E [R_{t} ∣ S_{t - 1} = s, A_{t - 1} = a] = r \in R \sum r s^{'} \in S \sum p (s^{'}, r ∣ s, a)

$s$ 에서 $a$ 를 수행했을 때, 받을 수 있는 reward 의 기댓값 (expectation)

$r (s, a, s^{'})$ 는 다음과 같음

r (s, a, s^{'}) ≐ E [R_{t} ∣ S_{t - 1} = s, A_{t - 1} = a, S_{t} = s^{'}] = r \in R \sum r \cdot \frac{p ( s ^{'} , r ∣ s , a )}{p ( s ^{'} ∣ s , a )}

< S, A, P, R, γ >

States: time step $t$ 에 존재하는 interaction history 의 representation $S_{t}$
actions: 추천 가능한 후보 아이템들의 전체 집합
Transition probability: agent 가 사용자 feedback $r$ 을 받고 state $s$ 에서 $s^{'}$ 으로 넘어갈 확률 $p (s^{'}, r ∣ s, a)$
Reward Function $R$ : user’s feedback $r (s, a)$
$γ$ : Discount Factor