1. Abstract
- 소개
강화학습을 사용해 high-dimensional sensory input으로부터 성공적으로 control 정책을 학습시킨 첫번째 딥러닝 모델을 소개한다. - 모델
Input이 raw pixels이고 output은 미래의 보상을 예측하는 value function인 변형된 Q-learning을 학습시킨 CNN 모델이다. - 학습 환경
7개의 Atari 게임에 학습시켰고, 모델 구조나 학습 알고리즘에 추가적인 튜닝 없이 적용시켰다. - 성능
6개의 게임에서 이전의 모든 접근보다 좋은 성능을 보였고, 3개의 게임에서 인간을 뛰어넘는 성능을 보였다.
2. Introduction
이전의 강화학습 문제점
- Vision이나 speech와 같은 high-dimensional sensory inputs으로부터 agent을 학습을 시키는 것은 강화학습 분야의 오래된 챌린지이다.
- 많은 성공적인 강화학습 응용 사례는 linear value functions나 policy representations 로 결합된 hand-crafted features에 의존하였다.
- 다시 말해, 이러한 시스템은 feature representation의 성능에 크게 의존하였다.
강화학습에 딥러닝을 적용할 수 있는 가능성이 열리다
- 딥러닝의 최근 발전은 컴퓨터 비전이나 음성 인식 분야에서 raw sensory data로부터 high-level features를 추출할 수 있게 만들었고, CNN, MLP, estricted Boltzmann machines, RNN 등을 통해 지도학습과 비지도학습을 하였다.
- 마찬가지로 RL에서도 비슷한 방식으로 sensory data를 학습시키는데 딥러닝이 기여할 수 있는지 질문을 던질 수 있다.
딥러닝 기술을 강화학습에 적용시키기 전 마주할 문제점
1. Delay
성공적인 딥러닝 기술 사례에서는 수작업으로 라벨링된 엄청난 양의 training data가 요구되는데, RL 알고리즘의 경우 sparse하고 noisy하며, delayed된 scalar reward signal으로 학습되어야 한다.
행동과 보상 사이에 걸리는 시간 즉, 결과를 알기까지의 delay가 문제가 된다는 뜻이다. (반면에 지도학습은 즉각적이다.)
2. 비독립성
대부분의 딥러닝 알고리즘이 데이터 간의 독립성을 가정하는 반면, 강화학습은 데이터 간 연관성이 존재한다는 점이다.
3. 고정되지 않은 분포
RL의 데이터의 분포는 학습 알고리즘이 새로운 행동을 학습할때마다 달라지며 이것은 딥러닝의 데이터 분포가 고정되었다는 가정과 차이가 있어 문제가 된다.
문제 해결 방법
- 해당 논문에서는 CNN이 복잡한 강화학습 환경에서 raw video로부터 성공적으로 control policy를 학습하여 이러한 문제점을 극복하는 것은 보여준다.
- 네트워크는 변형된 Q-learning 알고리즘에 의해 학습되고, SGD를 사용하여 weight를 업데이트한다.
- 데이터간의 연관성과 고정되지 않은 데이터 분포 문제를 완화하기 위해 experience replay mechanism을 사용하는데, 이것은 이전에 학습한 데이터를 저장하여 랜덤 샘플로 사용한다. 이를 통해 학습 데이터의 분포가 smooth해지게 만든다.
실험 환경
- Atari 2600 게임에 적용한다.
- Atari 2600 게임은 강화학습의 테스트베드이고, 사람이 수행하기에도 어렵게 짜여진 게임이다.
- 목표는 성공적으로 가능한 많은 게임을 수행하는 단일 NN agent를 만드는 것이다.
- NN은 게임의 특정 정보나 hand-designed visual features, 게임의 내부 상태를 제공받지 않았으며, 단지 사람이 플레이하는 것처럼 video input, reward, 터미널로부터 오는 신호, 행동 정도만 제공받는다.
- 추가적으로 네트워크의 구조나 하이퍼파라미터는 동일하게 적용되어 게임 학습에 사용된다.
사진: 학습에 사용된 5가지 게임 모습
'paper review' 카테고리의 다른 글
[논문 리뷰/컴퓨터비전] Vision Transformer(ViT) (0) | 2022.03.07 |
---|---|
[논문 리뷰/컴퓨터비전] FaceNet (0) | 2022.03.07 |
[논문 리뷰/자연어처리] Attention Is All You Need (0) | 2021.10.05 |
[논문 리뷰/추천시스템] NCF(Neural Collaborative Filtering) (0) | 2021.09.28 |