전병곤 교수 연구진,
인공지능 학습 데이터 증강을 빠르게 하는 새로운 데이터 캐싱 시스템으로 세계 선도
전병곤 교수 연구진은 데이터 증강(Data Augmentation)과정을 최적화하여 머신러닝 학습 수행시 기존 시스템 대비 최대 2.17배 빠른 속도로 수행하는 리뱀퍼(Revamper) 시스템을 개발하였다. 해당 시스템을 통해 다양한 분야에서 인공지능 학습을 보다 효율적으로 수행하는 것이 가능할 것으로 기대한다.
데이터 증강은 학습 데이터에 임의의 변환 연산을 적용함으로써 실질적인 학습 데이터의 수를 증가시키기 때문에 인공지능 학습에서 인공지능 모델의 성능을 높이기 위해 사용된다. 하지만 데이터 증강은 많은 양의 중앙 처리 장치(CPU) 자원을 필요로 하는데, 이는 그래픽 처리 장치(GPU)의 성능이 빠르게 향상됨에 따라 인공지능 모델 학습의 속도를 저하시키는 새로운 병목 요인이다.
이 문제를 해결하기 위해 전병곤 교수 연구진은 새로운 데이터 캐싱 시스템인 리뱀퍼를 개발하였다. 기존에 구글에서 제안한 방식은 최종 증강한 표본을 일정 회수 재사용하여 속도를 향상하는데 학습된 모델의 정확도 저하가 있다는 문제점이 있다. 본 연구진은 학습된 모델의 성능 저하 없이 표본을 재사용하는 데이터 리퍼비싱 기법을 제안하였다. 데이터 리퍼비싱은 데이터 증강 과정을 두 부분으로 나누어 부분적인 데이터 증강 연산이 적용된 표본들을 일정 횟수 재사용하고 학습에 사용하기 전에 나머지 증강 연산을 수행하는 방식으로 모델 정확도 저하 문제를 해결하였다. 그리고 이 방식을 효율적으로 지원하기 위해 재사용하는 표본들을 여러 학습 스텝에서 고르게 사용하는 새로운 캐싱 시스템인 리뱀퍼를 구현하였다.
리뱀퍼는 파이토치(PyTorch) 데이터로더 대비 최대 2.17배 빠른 인공지능 학습 속도를 제공한다. 리뱀퍼는 개발 시 사용자의 편의성을 고려하여 설계했으며 기존에 사용하던 파이토치 모델을 리뱀퍼를 이용해 빠르게 수행할 수 있다.
이 연구 결과는 오는 7월 USENIX ATC (Annual Technical Conference)에서 발표될 예정이다.
“Refurbish Your Training Data: Reusing Partially Augmented Samples for Faster Deep Neural Network Training", Gyewon Lee, Irene Lee (Georgia Institute of Technology), Hyeonmin Ha, Kyunggeun Lee, Hwarim Hyun, Ahnjae Shin, and Byung-Gon Chun.