강화 학습
Agent가 수행한 Action에 따라 Reward를 주어서 더 큰 Reward을 얻기위해 점점 더 나은 Action을 선택할수 있도록 Agent가 스스로 학습하는 알고리즘.
용어 정의
- Policy : 어떤 State에서 어떤 Action을 취할지를 정의.
- Value Function : 어떤 State에서 미래에 얻을 수 있는 Reward 기대값을 정의.
- Model : Agent가 Environment를 Representation하는 방식.
Policy
- Deterministic Policy : 결정론적 정책. 어떤 상태에 어떤 행동을 할지 정의.
s상태에서 a행동을 할 확률. |
Value Function
어떤 상태에서 미래에 기대할 수 있는 Reward값.
- R : Reward, Transition으로 얻어질 Reward를 정의.
s에서 a를 했을때, 얻게될 보상의 확룰분포(stochastic의 경우). |
Exploration & Exploitation
-Exploration : Environment의 새로운 정보를 더욱 탐색해나가는 과정.
ex) Random action을 통해 Reward에 대한 정보를 얻음.
-Exploitation : Environment의 알려진 정보를 활용해 Reward를 Maximize하는 과정.
Prediction : 미래를 평가.
어떤 Policy가 주어졌을때, State의 Value Function값을 구하는것.
Control : 미래를 최적화.
최적의 Policy를 찾는것.
댓글
댓글 쓰기