유클리드소프트, 대규모 AI 학습 데이터 사업 성과 공개
㈜유클리드소프트(대표 박주한, 채은경)는 2024년 ‘초거대AI 확산 생태계 조성사업' 문서 생성 및 정보 검색 데이터의 세부 과제 '시각화 자료 질의응답 데이터'를 구축 완료하여 한국기술정보협회(TTA)의 품질검증을 의뢰했다고 밝혔다.

㈜유클리드소프트는 ‘초거대AI 확산 생태계 조성사업’을 수행하며 미디어그룹 사람과숲, 서울과학기술대학교 멀티모달 언어처리 연구실(MLP) 임경태 교수 연구팀과 컨소시엄을 이루어 시각화 자료 질의응답 데이터 과제를 수행했다.

임경태 교수 연구팀은 ㈜유클리드소프트와 함께 2020년부터 AI 학습용 데이터 구축 사업을 진행했고, 이를 바탕으로 한국어 특화 시각-언어모델 ‘Bllossom’을 공개했다.

AI 확산 생태계 조성사업’은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 사업으로 AI 생태계 조성 및 AI 일상화를 실현할 수 있도록 지원하는 것을 목적으로 추진됐다.

본 사업은 AI 학습용 대규모 멀티모달 데이터를 구축하여 2025년 1월 최종 평가를 끝으로 마무리되는 일정이며 ㈜유클리드소프트는 수집·정제·가공 등 전반적인 과정에 참여하여 데이터를 성공적으로 구축했다.

‘시각화 자료 질의응답 데이터’는 문서 내 그림, 표, 그래프, 다이어그램(인포그래픽 포함) 등 시각적 요소를 포함한 구조화된 문서를 통합하여 LMM의 맥락 이해와 추론 능력을 확장하고 문서의 내용에 관련된 질문에 대한 응답을 수행하는 것을 목표로 한다. 해당 데이터는 △문서 작성 서비스 △문서 기반 질의응답 서비스 △문서 검색 서비스 등에 활용할 수 있으며 구축 사업 종료 이후 AI Hub를 통해 개방된다.

㈜유클리드소프트 박주한 대표이사는 “2020년부터 2024년까지 5년 연속으로 AI 학습용 데이터 구축 사업에 참여하여 당사의 기술력을 인정받았다”고 설명하면서 “Bllossom 모델을 기반으로 양질의 데이터를 구축하여 초거대 AI 생태계에서 새로운 기회를 창출할 수 있는 기반을 만들어낼 것”이라고 전했다.

한편, ㈜유클리드소프트는 지난 4년간 AI 학습용 데이터 5,286만 건과 초거대AI 학습을 위한 말뭉치 데이터 3억 토큰을 구축하였고, 2022년에는 ‘대규모 시각 추론 학습 데이터’가 ‘인공지능 학습용 데이터 구축 지원사업’ 최종 평가에서 우수 등급을 받는 등 데이터 구축 분야의 전문성을 인정받고 있다. 이외에도 크라우드 소싱 플랫폼인 ‘LabelOn’을 자체 구축하여 운영 중에 있다.

한경머니 온라인뉴스팀 기자 moneynews@hankyung.com