AI/강화학습

Q-learning과 Deep Q-learning

leonhong 2021. 10. 9. 23:48

Q-learning의 한계

 그리드 월드는 Q-leaning으로 Q함수 테이블을 이용해 답을 구할수 있습니다. 그런데 만일 그리드 월드의 장애물 위치나 완료지점의 위치가 바뀌게 되면, 처음부터 학습을 다시 시켜야 합니다. 왜냐면 Q함수 테이블은 하나의 문제만을 가정하고 만든 테이블이기 때문에 게임의 상태가 바뀌면 Q함수도 모두 바꾸어 주어야 합니다.

 

근사함수(Approximation)의 등장

 근사시킨다는 말은 대략적인 경향을 찾는다는 말로 이해하면 됩니다. 즉 완벽한 하나의 값을 찾기 보다는 대략적인 경향을 찾는 방법을 그리드에 대입해주는 것입니다. 그리드 월드에 대입하여 설명하면 하나의 그리드에 특정 답을 찾는게 아니고, 장애물의 위치와 완료지점을 고려한 대략적인 답을 찾는 함수를 찾으면 여러 종류의 그리드월드에 유연하게 반응할수 있습니다. 

 

근사함수와 Deep Q-learning

 근사함수를 가장 잘 찾는 것이 Deep learning입니다. 그래서 Q-learing에 Deep learing에서 사용하는 신경망을 결합한 것이 바로 Deep Q-learning 입니다. 

'AI > 강화학습' 카테고리의 다른 글

Windows에서 OpenAI Atari 구동 환경 구성  (0) 2022.07.25
그리드 월드와 Q-learning  (0) 2021.10.09
강화학습 용어들  (0) 2021.09.09