Bellman Equation

v_{π} (s) = E_{π} [R_{t + 1} + γ v_{π} (S_{t + 1}) ∣ S_{t} = s], for all s \in S

A.1) 식 유도

v_{π} (s) ≐ E_{π} [G_{t} ∣ S_{t} = s] = E_{π} [R_{t + 1} + γ G_{t + 1} ∣ S_{t} = s] = E_{π} [R_{t + 1} + γ v_{π} (S_{t + 1}) ∣ S_{t} = s] = a \sum π (a ∣ s) s^{'}, r \sum p (s^{'}, r ∣ s, a) [r + γ v_{π} (s^{'})]

Markov Reward Process 에서 특정 state $s$ 와 다른 state $s^{'}$ 간 value 관계를 표현한 수식

v (s) = s^{'}, r \sum p (s^{'}, r ∣ s) [r + γ v (s^{'})]

여기서 $v (s)$ 는 state $s$ 의 value 를 의미하며, $s$ 에서 시작했을 때 expected discounted return 을 의미한다.

v (s) = E [G_{t} ∣ S_{t} = s] = E [k = 0 \sum \infty γ^{k} R_{t + k + 1} ∣ S_{t} = s]

위 Bellman 공식은 다음과 같이 matrix form 으로 간략화 할 수 있다.

v = P R + γ P v

$v$ 는 column vector 로, 각 원소는 state 의 value 를 나타낸다.
$R$ 는 또 다른 column vector 로, 각 원소는 그 순서에 해당하는 state 로 전이되었을 때 얻을 수 있는 reward 를 의미한다.

즉, 위 식을 확장하여 표현하면 이렇게 된다.

v (1) ⋮ v (n) = P_{1, 1} ⋮ P_{n, 1} \dots ⋱ \dots P_{1, n} ⋮ P_{n, n} R_{1} ⋮ R_{n} + γ P_{1, 1} ⋮ P_{n, 1} \dots ⋱ \dots P_{1, n} ⋮ P_{n, n} v (1) ⋮ v (n)

이 식을 풀면 $v$ 에 대한 solution 을 얻을 수 있다.

\begin{gathered} (I-\gamma P) v=P R \\ v=(I-\gamma P)^{-1} P R \end{gathered}$$ 즉, [[Markov Chain]] 에서 수렴된 전이 확률 행렬을 얻기 위해 step 을 열심히 반복하지 않아도, 위 계산식을 통해 얻을 수 있다는 의미가 된다. 하지만 $\gamma=1$ 인 경우 $I-\gamma P$ 가 [[singular]] matrix 가 되므로 역행렬이 존재하지 않아 solution 을 얻을 수 없다. # C) Related # D) References