강화 학습의 원리와 성질
계산 모형
- 강화 학습의 핵심 연산
- 시간에 따른 상태(state), 행동(action), 보상(reward)의 순차적 처리
$$
강화\ 학습의\ 핵심\ 연산\\f:(s_t,a_t)\rightarrow (s_{t+1},r_{t+1})
$$
- action을 통해 바뀐 state를 보고 적절한 reward를 주는 함수를 학습
- 보상 책정 방안
- 에이전트
- 학습하는 주체
- 랜덤하게 행동하지 않음
- 정책(Policy) 함수를 통해 해당 state에서는 어떤 action을 취해야 하는지 알아냄
- Policy는 학습을 통해 알아냄
- Policy: state가 주어지면 state로 부터 action을 mapping 하는 함수
- 환경
- 상을 줄 것인가 벌을줄 것인가 결정
- agent가 어떤 행동을 했을 때 state 변경
- 강화 학습의 목표
- 누적 보상액을 최대화 하는 것
- 매 순간 좋은 행동을 취할 수 있어야 함
- 주어진 MDP를 가지고 최적 정책을 찾아야 함
- MDP: Markov Decision Process (수학적 model)
- 상태, 행동, 보상은 대부분 이산 값을 가짐
- 정책
- Deterministic
- State가 주어지면 action을 지정해 줌
- Probabilistic || Stochastic
- State가 주어지면 가능한 모든 action들의 확률을 알려 줌
탐험과 탐사
- Policy 학습법
- 탐험 (Exploration)
- 미지의 세계를 탐험
- 전체 공간을 골고루 찾아보는 전략
- 탐사 (Exploitation)
- 탐색, 어느 정도 알려진 세계를 조사
- 특정한 곳 주위를 집중적으로 찾아보는 전략
- 지역적 minimum에 빠질 확률이 큼
- 최적해는 미지의 공간에 있을 확률이 크기 때문
- 둘의 적절한 배합 중요
마르코프 결정 프로세스 (Markov Decision Process)
- 마르코프 성질 (Markov Property)
- 만족 時 비교적 간단하게 문제 해결 가능
- 만족하지 않더라도 만족 하도록 문제 변형이 유리한 경우 多
- 행동을 결정할 때 이전 이력 (history)가 중요하지 않다
- 예) 바둑을 둘 때 action을 선정하기 위해 현재 놓여진 돌들만 고려하면 되지 이전에 어떤 순서로 돌들이 놓여졌는지 관여 X
- 마르코프 성질을 만족하지 못한다면
- 크게 벗어나면 강화 학습 적용 불가
- 근사하게 만족하도록 상태 표현 설계 가능
- 환경은 MDP 확률분포를 가지고 다음 상태와 보상을 정함
- MDP 확률분포: $P(s',r|s,a)$
- $s',r:$ 미래
- $s,a:$ 현재
- 모든 가능성의 확률 다 주어져야 함
정책과 가치함수
- 좋은 정책
- 누적 보상을 최대화하려고 일부로 함정에 빠지는 행동까지 추론 가능
정책