AI/강화학습 4

Windows에서 OpenAI Atari 구동 환경 구성

stable baseline과 함께 설치를 진행하겠습니다. 미리 설치할 환경 Python 3.7 이상 버전 PyTorch 1.11 이상 버전 stable baseline을 설치하면 OpenAI Gym이 자동 설치됨 pip install stable-baselines3 현재 1.6 버전이 설치됨, Gym 버전은 0.21.0 버전이 설치됨 atari 환경과 게임롬을 설치 pip install gym[atari] pip install autorom[accept-rom-license] OpenCV 설치 - 컬러 이미지를 흑백으로 변환할때 사용함 pip install opencv-python pip install opencv-contrib-python 버그 수정을 위한 마이너 설치 ale-py가 0.7.5 버전이..

AI/강화학습 2022.07.25

Q-learning과 Deep Q-learning

Q-learning의 한계 그리드 월드는 Q-leaning으로 Q함수 테이블을 이용해 답을 구할수 있습니다. 그런데 만일 그리드 월드의 장애물 위치나 완료지점의 위치가 바뀌게 되면, 처음부터 학습을 다시 시켜야 합니다. 왜냐면 Q함수 테이블은 하나의 문제만을 가정하고 만든 테이블이기 때문에 게임의 상태가 바뀌면 Q함수도 모두 바꾸어 주어야 합니다. 근사함수(Approximation)의 등장 근사시킨다는 말은 대략적인 경향을 찾는다는 말로 이해하면 됩니다. 즉 완벽한 하나의 값을 찾기 보다는 대략적인 경향을 찾는 방법을 그리드에 대입해주는 것입니다. 그리드 월드에 대입하여 설명하면 하나의 그리드에 특정 답을 찾는게 아니고, 장애물의 위치와 완료지점을 고려한 대략적인 답을 찾는 함수를 찾으면 여러 종류의 그..

AI/강화학습 2021.10.09

그리드 월드와 Q-learning

그리드 월드란? 강화학습의 Hello world와 같은 예제입니다. 사각 그리드가 주어지고 시작점과 완료지점, 장애물 존재하며 Agent는 시작점에서 출발하여 장애물을 피하여 완료지점에 도착하면 성공하는 게임입니다. Q-learning 강화학습의 종류가 여러가지가 존재하는데, 그 중에서 기초적인 알고리즘에 해당하는 것입니다. 그리드월드가 5x5로 구성되어 있고, 그리드에서 수행할수 있는 동작이 4개(위치 이동)라면 100개의 Q값을 가졌다고 가정하고 가장 적절한 Q값을 찾는 알고리즘입니다.

AI/강화학습 2021.10.09

강화학습 용어들

시작하기 강화학습이란 Agent가 Environment에서 목적를 이루기 위해 Action을 수행하여, Environment로부터의 Feedback을 이용하여 최적의 Policy를 만들어 가는 방법입니다. 그런데 강화학습을 시작할 때, 용어가 많아서 공부할때마다 햇갈려서 정리해 놓겠습니다. 용어들 Agent : 행동과 학습을 하는 주체 Environment (환경) : Agent가 존재하는 세계 Action(행동) : Agent가 Environment 안에서 일으키는 움직임 State(상태) : Agent의 상태로써 Action을 하고 나면 상태가 변경됨 Policy(정책) : 특정 State에서 어떤 Action을 선택할지에 대한 전략 Reward(보상) : Action을 수행했을때 Environmen..

AI/강화학습 2021.09.09