음성 파일 텍스트로 자동 변환…대학생부터 직장인까지 폭넓은 사용자층 확보

[비즈니스 포커스]
네이버 클로바노트.(사진=네이버)
네이버 클로바노트.(사진=네이버)
불과 몇 년 전만 해도 실생활에서 인공지능(AI)을 접할 수 있는 것은 AI 스피커가 전부였다. 하지만 이제는 AI 기술이 여러 플랫폼에 녹아 들어 일상을 바꿔 놓고 있다.

지난해 큰 인기를 얻은 네이버의 AI 음성 기록 서비스 ‘클로바노트’가 대표적이다. 신종 코로나바이러스 감염증(코로나19) 사태 이후 재택근무와 온라인 수업이 늘어나면서 음성으로 오간 대화를 텍스트로 바꿔 주는 클로바노트가 유용하게 쓰이기 시작했다. 지난해 8월 유력 정치인이 대화 녹취록을 텍스트로 변환하는데 클로바노트를 활용한 것이 알려지면서 화제를 모으기도 했다.

출시 1년 만에 사용자 110만 명 돌파

AI 음성 기록 서비스 ‘클로바노트’는 딥러닝 기술을 활용해 녹음된 음성을 텍스트로 변환하는 STT(Speech-To-Text) 서비스다. 네이버가 자체 개발한 초거대 AI ‘하이퍼클로바’ 기반의 음성 인식 기술과 화자 인식 기술이 적용돼 정확한 음성 인식과 화자 구분이 가능하다.

클로바노트는 음성을 텍스트로 변환해 주는 기능을 통해 회의록과 강의 노트 등 실생활에서 유용하게 쓰이며 사용자들 사이에서 좋은 반응을 얻었다. 그 결과 클로바노트는 지난해 구글플레이 베스트 오브 어워즈에서 ‘2021 올해를 빛낸 인기 애플리케이션(앱)’, ‘2021 올해를 빛낸 일상생활 앱’에 각각 선정돼 2관왕에 오르는 성과를 거뒀다. 지난해 11월 기준으로 앱 가입자는 출시 1년 만에 110만 명을 넘어섰고 누적 다운로드 수는 120만 건을 돌파했다.

클로바노트의 주요 기능은 크게 세 가지다. 먼저, ‘음성 기록 텍스트 변환’으로 클로바노트 앱에서 직접 녹음하거나 앱 또는 PC에서 음성 파일을 업로드하면 해당 내용이 참석자의 목소리까지 구분된 텍스트로 변환돼 화면에 나타난다. 외국어 변환도 가능한데 한국어·영어·일본어 중 원하는 언어를 선택하면 클로바노트가 해당 언어로 음성을 기록한다.

재택근무가 활성화되면서 화상 회의에 유용하게 사용할 수 있는 기능도 있다. 화상 회의 플랫폼 ‘줌’과 연동해 줌 미팅을 시작하면 자동으로 클로바노트에 노트가 생성돼 녹음이 시작된다. 네이버 관계자는 “현재는 줌에서만 연동이 가능하지만 향후 네이버 웨일온, 구글 미트 등 다양한 화상 회의 솔루션과의 연동을 확대해 업무 환경에 더욱 유용한 서비스를 선보일 예정”이라 말했다.

이 밖에 클로바노트는 다른 사람에게 노트 공유하기, 중요한 내용 북마크 표시, 녹음 중 메모, 자주 쓰는 단어 설정 기능으로 사용자의 편의 향상을 도모하고 있다.

클로바노트는 양대 앱 마켓인 구글플레이스토어와 앱스토어에서 만점에 가까운 4.8점을 받고 있다. 사용자들은 “녹음 파일을 들으면서 정리하다 보면 시간이 많이 걸렸는데 효율적으로 일할 수 있게 됐다”, “미팅이 많은 직종에는 최고의 앱이다”, “회의가 부담스럽지 않다” 등의 리뷰를 남겼다. 학생 사용자는 영어 강의 녹음으로 큰 도움을 받고 있다는 후기를 남겼고 장년층 사용자는 타이핑이 느린데 음성으로 텍스트를 만들게 되니 쉽고 정확해 좋다는 반응을 보였다.

사용자들의 연령대도 다양하다. MZ세대(밀레니얼+Z세대)뿐만 아니라 40~50대 직장인까지 폭넓은 사용자층을 보유하고 있다. 특히 지난해 9월 신학기 시작 이후 학교 강의와 그룹 과제에 클로바노트를 활용하는 학생들이 늘어나면서 20대 주간 사용자가 전달 대비 4배 이상 증가했다.

딥러닝이 만든 클로바노트의 정확성

클로바노트의 정확성은 네이버 ‘하이퍼클로바’의 딥러닝 기술에서 출발했다. 전통적으로 AI 딥러닝은 데이터와 데이터를 설명하는 레이블을 쌍으로 학습시키는 ‘지도 학습’ 방식으로 이뤄져 왔다. 예를 들면 고양이 이미지와 고양이라는 설명을 같이 학습시키는 식이다.

음성 인식 AI를 개발하기 위해서는 음성과 음성 속 텍스트를 같이 학습시켜야 한다. 이러한 데이터 레이블링은 사람의 수작업으로 이뤄지기 때문에 학습 데이터 구축에 시간과 비용이 많이 든다.

반면 자기 지도 학습은 레이블 없이 데이터 자체만으로 학습할 수 있는 최신 딥러닝 기법으로 학습의 효율성을 훨씬 높일 수 있다. 이는 네이버가 최근 공개한 초거대 AI 하이퍼클로바의 핵심 기술이기도 하다.

네이버는 자기 지도 학습 기법을 AI 음성 인식 엔진 ‘NEST(Neural End-to-end Speech Transcriber)’에도 적용함으로써 기존 대비 음성 인식의 정확도를 약 30% 높였다. 새로운 학습 기법 적용으로 음원 데이터 속 텍스트를 확인하는 전사 작업을 최소화하면서도 기존보다 정확한 AI 학습이 가능해져 모델의 학습 시간과 비용이 획기적으로 단축됐다. NEST 엔진은 단문 위주의 음성 명령보다 복잡한 장문의 음성 표현을 인식하는 데 최적화된 기술로, 네이버가 2020년 4월 처음 공개했다. 이렇게 업그레이드된 NEST 엔진이 가장 우선적으로 클로바노트에 탑재됐다는 게 네이버 측의 설명이다.

‘클로바노트’를 운영하는 조직은 네이버 클로바 스피치 팀이다. 클로바 스피치팀을 이끄는 한익상 네이버 클로바 스피치팀 책임리더는 음성 인식 기술 분야의 전문가이고 네이버가 2020년 공개한 음성 인식 엔진 ‘NEST’의 개발을 이끈 경력을 갖고 있다.

한익상 책임리더는 “클로바노트는 사용자들이 AI 기술의 가능성을 일상 속에서 체감한 대표적인 서비스”라며 “정확한 음성 기록뿐만 아니라 문장 정제, 회의록 요약 등 새로운 기능을 더해 일상을 더욱 편리하게 만들고 더 많은 사용자들에게 사랑받을 수 있는 AI 서비스로 발전시키겠다”고 말했다.

이명지 기자 mjlee@hankyung.com