사람

블로그 글

채용 정보

프로젝트

Asynchronous Actor-Critic Agents(A3C)
 
2019년 4월 | 진행중 
a3c가 policy gradient를 기반으로 발전한 알고리즘이기에, 유지 보수와 확장성을 고려해 policy gradient를 base class로 설정했습니다. 그러면 이후에 policy gradient 기반의 알고리즘이 등장하더라도 중복되는 코드를 줄일 수 있다고 생각했습니다. 구현은 policy gradient, a2c, a3c 알고리즘 등장 순으로 진행했습니다. 이후에는 전체적으로 기능 단위로 모듈을 분할하고, 학습 흐름을 따라 구현했습니다.
김기완  홍익대학교 기계시스템디자인공학과
Python, artificial-intelligence, TensorFlow
피카츄배구 강화학습으로 학습하기
 
2018년 6월 - 2018년 7월 
강화학습을 단기간 내에 집중적으로 공부하고 구현해보기 위해 피카츄배구에 강화학습을 적용해보는 프로젝트를 진행. 구현 환경은 OpenAI의 Gym을 활용, 해킹툴을 이용하여 프로세스의 메모리를 읽어 환경을 구축하였고, 간단한 강화학습 모델을 활용해 학습.
박성남  추천팀 인턴 
150RP · NLP 상위 2%