서울대학교 공과대학은 컴퓨터공학부·인지과학연구소 장병탁 교수 연구팀(김진화 박사과정 외)이 영상을 보고 음성으로 질의 응답하는 시각대화 딥러닝 기술을 개발했다고 12월 6일(화) 밝혔다.
연구팀은 20만장의 사진과 76만개의 질의응답쌍으로 구성된 VQA (Visual Question Answering) 데이터셋(미국 버지니아텍 제공)을 이용하여 딥러닝 신경망을 학습시켰다. 다중모달 잔차 신경망 (Multimodal Residual Network, MRN)으로 명명된 이 딥러닝 신기술은 음성입출력 기술과 결합되어, 로봇에게 핸드폰을 보여주고 “이것이 뭐야?”라고 물으면 영상을 분석하여 “핸드폰이야”라고 대답할 수 있다. 뿐만 아니라 같은 물건에 대해서 “이것은 무슨 색이야”하고 물으면 “검정색이야”라고 하거나 “ 상표는 뭐지?”라는 질문에 “삼성이야”라고 대답할 수 있다. 지금까지 언어로 질문을 하고 언어로 답하는 질의응답 기술은 개발되었으나, 영상을 보여주고 그 내용에 대해서 음성언어로 질문하고 음성언어로 답하는 기술을 개발한 것은 이번이 세계 최초이다.
이러한 ‘VQA 인공지능’은 여러 분야에서 활용될 가능성이 있다. 어린이 학습에 응용할 수도 있고, 시각 장애가 있는 사람에게 주변 정보나 소셜 미디어 정보를 알려줄 수 있으며, 대용량의 방송 정보나 감시카메라 촬영 내용을 조건에 따라 빠르게 검색할 수 있다. 사람과 의사소통할 수 있는 인공지능 비서와 같은 로봇 응용에서도 활용될 수 있다.
장 교수는 “지금까지 시각과 언어 기술은 독자적으로 많이 연구됐으나, VQA은 다중모달로부터 학습하고 추론한다는 점에서 비약적인 발전이 이루어졌다고” 할 수 있으며 “앞으로 다중모달 기반의 인공지능 개발에서 도약하는 발판이 되길 바란다”고 말했다.
장교수 연구팀의 이번 연구는 7월 CVPR 컴퓨터비전 국제학회의 VQA 경진대회에서 4위에 올랐으며, 10월 발표된 후속 연구에서 1위를 탈환하였다 (실시간 순위표: https://competitions.codalab.org/competitions/6961#results).
관련 연구 논문은 12월 6일(현지시간) 스페인 바르셀로나에서 개최된 제30회 신경정보처리시스템 국제학회(NIPS 2016)에서 발표되었다. NIPS는 인공지능(머신러닝) 분야에서 가장 권위있는 국제학술대회 중 하나로 올해 인공지능분야에 대한 폭발적인 관심으로 열기로 6천여 명이 참석하여 역대 최대규모로 개최되었다.