Table of Contents
몬테카를로 학습
MC 학습의 특징
MC 학습과 정책 반복법의 차이점
Docs
몬테카를로 학습
MC 학습의 특징
알려진 모델이 없다고 가정합니다. 즉, 에이전트는 주어진 상태에서 어떤 행동을 취했을 때 어떤 상태로 전이 할지, 어떤 보상이 주어질지 알지 못합니다.
에이전트는 경험의 표본으로부터 학습합니다.
현재까지 겪은 모든 에피소드에 대해 상태의 이익 G를 평균하여 상태의 가치 함수를 구합니다. (
경험적 평균
)
에피소드 하나를 완전히 끝낸 다음 업데이트합니다.
에피소드 단위 문제에 한하여 적용할 수 있습니다.
MC 학습과 정책 반복법의 차이점
MC 학습은 완전한 가치 함수가 아닌 가치 함수의 추정치만 얻을 수 있다.
MC 학습은 환경 내 모든 상태의 가치 함수를 추정하는 것이 아니라, 에이전트가 에피소드 안에서 거쳐간 상태의 가치 함수만 추청
Docs
블랙잭으로 알아보는 MC 학습