AI/RL

[Markov Decision Process - 3] MDP의 종류

pipes0512 2024. 4. 22. 19:11

Finite vs Infinite

  1. Finite Markov decision process
    : State / Action / Rewards 가 모두 유한하다.
    • ex : 5x5 미로 - 위치 state가 25개 / 4개(상하좌우)의 action / single reward
  2. Infinite Markov decision process
    : State / Action / Rewards 중 하나라도 무한하다면 Infinite Markove decision process 이다.
    • 연속적 값의 경우 가능한 값이 무한하다.
    • ex : 자동차 운전 - state : 자동차의 위치, 속력(infinite)

Episodic vs Continuing

  1. Episodic Markov decision process
    : 특정 조건에서 종료되는 MDP이다.
    • ex : 체크메이트를 하거나/당했을 경우 종료
  2. Continuing Markov decision process
    : no certain conditions - keep going