빅데이터 분석 연구실은 차세대 웹 기술 및 데이터 처리 기술을 연구한다. 시맨틱 웹의 핵심 기술인 온톨로지(모델링, 저장, 질의 처리, 진화)와 웹 2.0에서의 태그 관련 연구(태그 시각화, 태그 추천, 태그를 활용한 정보 검색 및 협업 필터링), 클라우드 환경에서의 대용량 데이터 처리에 대한 연구를 진행하고 있다.
온톨로지 변경 관리
RDF는 웹상의 메타데이터를 표현하기 위해 W3C에서 제정한 언어이다. 이러한 RDF 문서들은 온톨로지 생성 및 동기화 시스템 등 다양한 분야에서 사용된다. 지식 도메인에 대한 정보는 자주 변화하기 때문에 이전 버전의 정보를 갱신하는 일은 필수적이다. 그러나 데이터가 변경될 때마다 기존의 전체 데이터를 갱신하는 것은 너무 많은 오버헤드가 발생한다. 일반적으로 변경된 부분은 전체 문서에 비해 상대적으로 작다. 따라서 효율적인 관리를 위해 변경된 부분만을 탐지하고 관리한다.
태그 시각화
태깅은 웹 2.0에서 가장 널리 쓰이는 서비스 중 하나이며, 폭소노미(folksonomy)는 공동 태깅을 나타내는 표현 체계이다. 폭소노미를 시각화하는 방법으로는 태그 클라우드만이 유일하게 사용되어 왔다. 그러나 태그 클라우드는 태그 간의 관계에 대한 정보를 나타내지 못한다. 우리 연구실에서는 태그들 간의 의미적 관계를 자동으로 추출하여 시각화하는 FolksoViz라는 기법을 연구했다. 위키피디아 텍스트에 기반하여 여러 규칙과 모델을 적용하여 등 관계, 포함 관계, 유사 관계 등을 찾아낸다. 이렇게 얻은 관계들을 효과적으로 보여준다.
태그 추천
우리가 웹에서 기사나 블로그 글 등을 검색할 때에는 텍스트 정보를 이용한다. 하지만 사진이나 비디오의 경우에는 제목 밖에 이용하지 못한다. 만약 이러한 멀티미디어 데이터의 태그로 중요한 키워드들이 달려 있으면 태그 정보를 검색에 이용할 수 있다. 태그는 텍스트, 블로그 글, 멀티미디어 데이터를 나타내는 키워드이다. 사용자들은 태그의 가치와 중요성을 이미 인식하고 있지만, 태그를 사용하는 사람은 적다. 태그를 추가하는 일이 귀찮거나 또는 좋은 검색 결과를 위해 어떤 태그를 달아야 할지 모르기 때문이다. 우리 연구는 수집한 태그 데이터를 분석하여 사용자에게 알맞은 태그를 추천한다.