AI/강화학습

그리드 월드와 Q-learning

leonhong 2021. 10. 9. 23:32

그리드 월드란?

 강화학습의 Hello world와 같은 예제입니다. 사각 그리드가 주어지고 시작점과 완료지점, 장애물 존재하며 Agent는 시작점에서 출발하여 장애물을 피하여 완료지점에 도착하면 성공하는 게임입니다.

 

Q-learning

 강화학습의 종류가 여러가지가 존재하는데, 그 중에서 기초적인 알고리즘에 해당하는 것입니다. 그리드월드가 5x5로 구성되어 있고, 그리드에서 수행할수 있는 동작이 4개(위치 이동)라면 100개의 Q값을 가졌다고 가정하고 가장 적절한 Q값을 찾는 알고리즘입니다.