그리드 월드란?
강화학습의 Hello world와 같은 예제입니다. 사각 그리드가 주어지고 시작점과 완료지점, 장애물 존재하며 Agent는 시작점에서 출발하여 장애물을 피하여 완료지점에 도착하면 성공하는 게임입니다.
Q-learning
강화학습의 종류가 여러가지가 존재하는데, 그 중에서 기초적인 알고리즘에 해당하는 것입니다. 그리드월드가 5x5로 구성되어 있고, 그리드에서 수행할수 있는 동작이 4개(위치 이동)라면 100개의 Q값을 가졌다고 가정하고 가장 적절한 Q값을 찾는 알고리즘입니다.
'AI > 강화학습' 카테고리의 다른 글
Windows에서 OpenAI Atari 구동 환경 구성 (0) | 2022.07.25 |
---|---|
Q-learning과 Deep Q-learning (0) | 2021.10.09 |
강화학습 용어들 (0) | 2021.09.09 |