9. 강화 학습 | Notion

강화 학습의 원리와 성질

계산 모형

강화 학습의 핵심 연산
- 시간에 따른 상태(state), 행동(action), 보상(reward)의 순차적 처리

$$ 강화\ 학습의\ 핵심\ 연산\\f:(s_t,a_t)\rightarrow (s_{t+1},r_{t+1}) $$

action을 통해 바뀐 state를 보고 적절한 reward를 주는 함수를 학습
보상 책정 방안
- 매 순간 보상액 책정이 어려운 경우 → 0
  - 마지막 순간에만 보상 또는 벌 줌
에이전트
- 학습하는 주체
- 랜덤하게 행동하지 않음
  - 정책(Policy) 함수를 통해 해당 state에서는 어떤 action을 취해야 하는지 알아냄
    - Policy는 학습을 통해 알아냄
    - Policy: state가 주어지면 state로 부터 action을 mapping 하는 함수
환경
- 상을 줄 것인가 벌을줄 것인가 결정
- agent가 어떤 행동을 했을 때 state 변경
강화 학습의 목표
- 누적 보상액을 최대화 하는 것
  - 매 순간 좋은 행동을 취할 수 있어야 함
    - 좋은 정책이 필요함
  - 주어진 MDP를 가지고 최적 정책을 찾아야 함
    - MDP: Markov Decision Process (수학적 model)
상태, 행동, 보상은 대부분 이산 값을 가짐
정책
- Deterministic
  - State가 주어지면 action을 지정해 줌
- Probabilistic || Stochastic
  - State가 주어지면 가능한 모든 action들의 확률을 알려 줌

탐험과 탐사

Policy 학습법
- 탐험 (Exploration)
  - 미지의 세계를 탐험
  - 전체 공간을 골고루 찾아보는 전략
    - 비효율적
- 탐사 (Exploitation)
  - 탐색, 어느 정도 알려진 세계를 조사
  - 특정한 곳 주위를 집중적으로 찾아보는 전략
  - 지역적 minimum에 빠질 확률이 큼
    - 최적해는 미지의 공간에 있을 확률이 크기 때문
- 둘의 적절한 배합 중요

마르코프 결정 프로세스 (Markov Decision Process)

마르코프 성질 (Markov Property)
- 만족 時 비교적 간단하게 문제 해결 가능
- 만족하지 않더라도 만족 하도록 문제 변형이 유리한 경우 多
- 행동을 결정할 때 이전 이력 (history)가 중요하지 않다
  - 예) 바둑을 둘 때 action을 선정하기 위해 현재 놓여진 돌들만 고려하면 되지 이전에 어떤 순서로 돌들이 놓여졌는지 관여 X
- 마르코프 성질을 만족하지 못한다면
  - 크게 벗어나면 강화 학습 적용 불가
  - 근사하게 만족하도록 상태 표현 설계 가능
환경은 MDP 확률분포를 가지고 다음 상태와 보상을 정함
MDP 확률분포: $P(s',r|s,a)$
- $s',r:$ 미래
- $s,a:$ 현재
- 모든 가능성의 확률 다 주어져야 함

정책과 가치함수

좋은 정책
- 누적 보상을 최대화하려고 일부로 함정에 빠지는 행동까지 추론 가능

정책