Show pageOld revisionsBacklinksBack to top This page is read only. You can view the source, but not change it. Ask your administrator if you think this is wrong. # 몬테카를로 학습 ### MC 학습의 특징 1. 알려진 모델이 없다고 가정합니다. 즉, 에이전트는 주어진 상태에서 어떤 행동을 취했을 때 어떤 상태로 전이 할지, 어떤 보상이 주어질지 알지 못합니다. 2. 에이전트는 경험의 표본으로부터 학습합니다. 3. 현재까지 겪은 모든 에피소드에 대해 상태의 이익 G를 평균하여 상태의 가치 함수를 구합니다. ([[경험적 평균]]) 4. 에피소드 하나를 완전히 끝낸 다음 업데이트합니다. 5. 에피소드 단위 문제에 한하여 적용할 수 있습니다. ### MC 학습과 정책 반복법의 차이점 1. MC 학습은 완전한 가치 함수가 아닌 가치 함수의 추정치만 얻을 수 있다. 2. MC 학습은 환경 내 모든 상태의 가치 함수를 추정하는 것이 아니라, 에이전트가 에피소드 안에서 거쳐간 상태의 가치 함수만 추청 ## Docs - [[블랙잭으로 알아보는 MC 학습]] open/몬테카를로-학습.txt Last modified: 2024/10/05 06:15by 127.0.0.1