[AI]Markov Decision Process(MDP)
Markov decision process란 observable, stochastic environment with a Markovian transition model and additive rewards 라는 것인데 예시를 보며 알아보자. 다음과 같은 상황이 주어졌다고 하자. +1, -1이 terminal state이고 reward가 각각 +1, -1이다. 또한 세가지 방향으로 이동가능한데 전진, 좌회전, 우회전 각각 0.8, 0.1, 0.1의 확률로 선택된다. terminal state를 제외한 모든 state는 reward가 -0.04이다, terminal state로 가는 방법에 대해 찾아보는 문제이다. 위 수식을 설명을 해보면 T(s, a, s' ) ≡ P(s'|s, a) 는 state s 에서..