Off-policy Monte CarloOff-policy strategyOff-policy 에서는, Exploratory policy와 Target policy를 분리하고 각각 다른 policies를 사용한다. Exploratory policy ($b(a|s)$): Exploratory policy는 Task를 수행하면서 State, Action, Reward를 포함한 Experience(tarjectory)를 수집한다. Experience들은 Target policy를 학습시키는데 사용된다.$$ S_0, A_0, R_1, S_1, A_1, ..., R_T $$ Target policy ($\pi(a|s)$): Optimal policy를 찾기 위해서 실질적으로 개선되는 Policy이다. Explora..