MathJax = { tex: {inlineMath: [['$', '$'], ['\\(', '\\)']]} };State value and Q-valueState value($v_\pi(s)$): State value function는 해당 State에서 end of episode(종료 조건 만족) 까지 가는데 얻어지는 Expected return이다. $$ v_\pi(s) = \mathbb{E}[G_t|S_t = s] $$$$ v_\pi(s) = \mathbb{E}[R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+2} + ... + \gamma^{T-t-1}R_\gamma|S_t = s] $$ Q-value(=Action value)($q_\pi(s, a)$)..