AI/RL

[Markov Decision Process - 2] MDP에 대한 이해와 특성

pipes0512 2024. 4. 22. 19:05

Discrete-time stochastic control process

Markov dicision process는 Disccrete-time stochastic control process이다.

  1. Discrete-time
    : 유한한 간격으로 시간이 움직임
    • ex: 1초, 2초, 3초 …
  2. Stochastic
    : 미래의 State는 Action에 부분적으로만 의존한다. 이는 모든 행동이 미래 상태를 완전히 결정하지 않는다는 것을 의미한다. 미래의 상태는 현재 State와 Action에 의해 결정되는 확률적 결과에 의존한다. 즉, 동일한 State에서 동일한 Action을 취하더라도 다른 결과가 발생할 수 있다. 이러한 특성 덕분에 MDP는 불확실성을 가진 환경에서 의사 결정 문제를 모델링하는데 적합하다.

  3. Control process
    : Target state(Task의 목표)에 도달하기 위한 Decision making

Process

Agent는 Environment와 지속적으로 상호작용하며 아래 과정 반복한다.

  1. Agent가 Environment를 관찰하여 State($S_t$)와 Reward($R_t$) 얻음 (초기의 경우 State만)
  2. Agent가 Action($A_t$) 취함, 이것이 Environment에 영향 끼침
  3. Task의 목표가 만족되거나 실패할 때 까지 1번 2번과정 반복

Advantage

여러가지 다른 Control task에 동일한 template(MDP)을 적용할 수 있으며, Control task를 4가지 매우 간단한 요소로 describe할 수 있다. -> (S, A, R, P)

  • S: Set of possible States of the task.
    • ex) 체스판의 구성 및 남은 시간
  • A: Set of Actions that can be taken in each of the states.
    • ex) 체스판의 state에 따른 모든 가능한 moves
  • R: Set of Rewards for each (s, a) pair
    • ex) 말을 옮기는 Action에 따른 State에 따른 Reward 값
  • P: Set of Probabilities of passing from one state to another when taking each possible action
    • ex) 다음 상태에 도달할 확률(Transition Probability)의 집합

Markov property

: 다음 스텝은 오직 현재의 state에만 영향(이전 state 영향 x)을 받으며, 이 property를 만족하는 process를 Markov process 라고한다. Markov decision process는 Markov chain의 extension이다.
-> No memory