강화 학습의 원리와 성질

계산 모형

$$ 강화\ 학습의\ 핵심\ 연산\\f:(s_t,a_t)\rightarrow (s_{t+1},r_{t+1}) $$

탐험과 탐사

마르코프 결정 프로세스 (Markov Decision Process)

정책과 가치함수

정책