AI/강화학습

강화학습 용어들

leonhong 2021. 9. 9. 00:07

시작하기

 강화학습이란 Agent가 Environment에서 목적를 이루기 위해 Action을 수행하여, Environment로부터의 Feedback을 이용하여 최적의 Policy를 만들어 가는 방법입니다. 

 그런데 강화학습을 시작할 때, 용어가 많아서 공부할때마다 햇갈려서 정리해 놓겠습니다.

 

용어들

 Agent : 행동과 학습을 하는 주체

 Environment (환경) : Agent가 존재하는 세계

 Action(행동) : Agent가 Environment 안에서 일으키는 움직임

 State(상태) : Agent의 상태로써 Action을 하고 나면 상태가 변경됨

 Policy(정책) : 특정 State에서 어떤 Action을 선택할지에 대한 전략

 Reward(보상) : Action을 수행했을때 Environment로부터 받게 되는 값

 Value(가치) : 현재 State에서 Agent가 계산한 이익

 Interest(수익) : 현재 State에서 앞으로 받을 모든 Value의 합

 

 Reward(보상)와 Value(가치)의 차이 : Reward는 Environment로부터 정적으로 주어지는 값이고, Value는 Agent가 계산하는 방식에 의해서 동적으로 변경되는 값입니다. 이게 조금 어려울수 있는데 예를 들어 보겠습니다. 

 예를 들어서 30만원짜리 CPU를 구매한다고 했을때, 30만원을 지불하는 Action을 수행하면 Reward는 CPU가 될것입니다. 그런데 가격이 동일한 CPU 종류가 2개가 있는데, 하나는 Core 갯수가 적지만 Core당 속도가 빠르고 다른것은 Core 갯수가 많지만 Core당 속도가 느리다면, Agent가 생각하는 Value는 두개의 CPU가 동일한 30만원이 아닐수 있습니다. 빠른 연산을 필요로 하는 Game을 하는 Agent라면, Core당 속도가 빠른 CPU를 구매할 것이고, 이때 Value는 속도가 빠른것에 가산점을 줄 것이고, Core 갯수가 많은것에는 감점을 줄것입니다. 그러나 Reward는 어쨋거나 시장에서 구매한 30만원짜리 CPU가 됩니다.

 

 

'AI > 강화학습' 카테고리의 다른 글

Windows에서 OpenAI Atari 구동 환경 구성  (0) 2022.07.25
Q-learning과 Deep Q-learning  (0) 2021.10.09
그리드 월드와 Q-learning  (0) 2021.10.09