(강화 학습) 시간 차이
시차 시간적 차이는 매우 중요한 주제입니다. 시간적 차이는 Q-Learning 알고리즘에서 모두 동일합니다. 결정적 / 비결정적 검색 결정적 검색과 비결정적 검색의 내용을 살펴보겠습니다. 결정론적 탐색의 경우 에이전트가 위로 올라가는 동작을 수행하면 100% 확률로 상위 상태로 이동한다. 반면 비결정적 탐색의 경우 에이전트가 올라가고 싶어도 각각 10% 확률로 다른 상태가 된다. “에이전트가 제어할 수 없는 임의의 환경에서 비결정적 … Read more