이동헌
직함: Ph.D candidate
Department of Computer Science at Princeton University
강화학습의 성공적인 적용례에 자주 쓰인 Q-learning계열의 알고리즘의 수학적인 수렴특성은 상당히 포괄적이어서, 다양한 적용례에 알고리즘이 사용되는 것에 크게 기여했습니다. 하지만, 선공사례에 못지 않게 수많은 실패사례들이 보고되지 않은 채로 있고, 더욱이 그러한 실패사례들을 어떻게 접근해야 성공적으로 적용할 수 있는지에 대해서는 몇 가지 heuristic들만이 통용되고 있을 뿐입니다. 이러한 heuristic들을 간단히 살펴보고, 왜 이러한 heuristic들이 생기게 되었는지에 대해 Q-learning계열 알고리즘의 수학적 특성을 알아보도록 하겠습니다. 그리고, Q-learning 알고리즘의 구조적인 성질 중에서, 실제 적용을 방해할 수 있는 algorithmic bias를 명시하고, 이를 줄이는 방법을 함께 살펴보도록 하겠습니다.
- 2007-09 카네기멜론 computational biology 석사과정
- 2009-12 프린스턴 CS 박사과정
- 2012-16 삼성전자 메모리사업부 책임연구원
- 2016-현재 프린스턴 CS 박사과정
- 제가 한 것 중 한국에서 제일 잘 알려진 것들: 2016년초 알파고 분석자료 "모두의 알파고", "프로그래머를 위한 알파고", "알파고 해부하기"