- NYU, KAIST, 네이버, 구글 등 산업계와 학계 뜻을 모아 공동구축
- 국내 최초 라이선스 고민 해결한 평가 데이터셋 공개로 한국어 AI 연구 발전 가속화 기대
KLUE는 한국어 언어모델의 공정한 평가를 위한 목적으로 8개 종류(▲뉴스 헤드라인 분류 ▲문장 유사도 비교 ▲자연어 추론 ▲개체명 인식 ▲관계 추출 ▲형태소 및 의존 구문 분석 ▲기계 독해 이해 ▲대화 상태 추적)의 한국어 자연어 이해 문제가 포함된 데이터 집합체이다.
17일 업스테이지측에 따르면 자연어 처리 및 이해에 대한 연구는 전 세계적으로 그동안 지속적으로 활발하게 진행되어 왔다. 하지만 연구의 기반이 되는 공개 데이터셋은 대부분 영어로 이루어져 한국어 고유의 특성을 고려한 연구 진행이 어려웠다. 업스테이지는 이러한 문제를 해결하고자 KLUE 구축에 나섰다.
KLUE는 영한 번역문이 아닌 일상생활에서 실제 사용되는 한국어 원문으로만 제작돼 한국어의 정확한 이해와 추론 능력을 평가할 수 있다. 특히 다양한 한국어 언어모델이 동일한 평가에서 정확하게 비교될 수 있는 평가기준과 토대가 된다는 점에서 앞으로 한국어 자연어처리 분야의 발전을 앞당길 것으로 기대된다.
또한 KLUE는 누구나 데이터에 접근, 활용할 수 있는 라이선스를 부착한 국내 최초 오픈 데이터셋이라는 점에서 중요한 의의가 있다. KLUE 이전에도 자연어이해(NLU)와 관련된 데이터셋은 있었지만, 다양한 작업을 집대성 해 산업계와 학계 모두 사용할 수 있는 CC-BY-SA 라이선스(크리에이티브 커먼즈 라이선스:특정 조건에 따라 저작물 배포를 허용하는 저작권 라이선스)로 공개한 것은 이번 KLUE가 최초다. 접근제한 없는 라이선스로 개방된 한국어 자연어 이해 평가 데이터가 없어 고전했던 산업계 및 학계의 고민을 해결했다는 평가를 얻고 있다.
KLUE 프로젝트는 업스테이지가 호스트를 맡고, 네이버 클로바, NYU, KAIST와 공동 주최로 진행됐다. 오픈 데이터셋과 한국어 언어 모델 제작을 위해 구글, 네이버 클로바, 업스테이지 (플래티넘) / 카카오 엔터프라이즈 (골드) / 스캐터랩, 셀렉트스타 (실버) / 뤼이드, 딥네추럴, KAIST (브론즈) 등 11개 기관으로부터 후원을 받았고, 라이센스 문제를 해결한 뉴스 기사를 한국경제신문과 아크로팬을 통해 제공받아 진행됐다. 또한 NYU, KAIST, 서울대, 연세대, 경희대, 서강대, 한밭대 등의 학계와 업스테이지, 네이버 클로바, 카카오 엔터프라이즈, 스캐터랩, 뤼이드 등의 공동연구기관 및 개인 연구자 자격으로 참여한 31명의 자연어 처리 전문가들이 약 7개월에 걸쳐 긴밀하게 협업해 구축했다.
하정우 네이버 AI Lab 소장은 “공동 1저자 및 교신저자 참여 그리고 대량의 클라우드 GPU 인프라 제공 등을 통해 KLUE 프로젝트에 기여함으로써 한국어 AI 연구에 있어 문제점이었던 양질의 벤치마크 데이터 부족 문제를 해결 할 수 있어 매우 기쁘게 생각한다”고 전했다.
김성훈 업스테이지 대표는 “KLUE는 업스테이지의 비전인 ‘Making AI Beneficial(AI 기술로 세상을 이롭게 한다)’에 따라 한국어 AI 경쟁력을 높이고 생태계를 활성화하고자 시작한 첫번째 기술 기여 프로젝트”라면서 “뜻을 함께한 회사들의 적극적인 협조와 연구자들의 뛰어난 실력 덕분에 수준 높은 결과물을 공개할 수 있게 되었다. 앞으로도 CV(컴퓨터비전), NLP(자연어처리), RecSys(추천시스템) 등 에 대한 연구 결과물을 지속적으로 공개해 국내 AI 기술 고도화에 기여할 것”이라고 말했다.
khm@hankyung.com
© 매거진한경, 무단전재 및 재배포 금지