초대형 인공지능 만들어 AI 주권 지킬 겁니다…700페타플롭스급 슈퍼컴 도입한 네이버 │ 매거진한경

[HELLO AI=활용 사례]
- AI 개발 이끄는 하정우·성낙호 네이버 책임리더…“기술 내재화로 중소상공인과 동반 성장”

[한경비즈니스=이현주 기자] 글로벌 인공지능(AI)의 주도권을 잡기 위해 전 세계의 빅테크 기업들이 움직이고 있다. 한국의 빅테크 기업 네이버는 2020년 10월 AI 기술 경쟁력을 강화하기 위해 ‘네이버 AI랩’을 개설했다. 중·장기 선행 AI 기술 연구를 리드하기 위해 사내 독립 기업(CIC) 네이버 클로바(Clova)에서 리서치 조직을 분리해 규모를 확대한 연구소다. 네이버의 AI 컨트롤 타워 역할을 할 이곳 연구소에서는 어떤 전략을 펴고 있을까. 네이버 AI랩을 이끄는 하정우 책임리더(AI랩 연구소장)는 “인터넷이 전 세계 사람들의 삶을 완전히 바꿔 놓은 것처럼 AI는 그 이상의 거대한 변화를 가져 올 것”이라며 “편리하고 안전한 AI를 제공하기 위해 글로벌 경쟁으로부터 AI 주권을 지켜 나가는 것을 목표로 하고 있다”고 말했다. 하정우 책임리더와 성낙호 네이버 클로바 책임리더를 ‘줌(ZOOM)’으로 만나 네이버가 그리는 AI의 미래를 들어봤다.

클로바 광학 문자 판독(OCR), 클로바 AI 콜(Call), 클로바 보이스(Voice), 클로바 스피치(Speech), 클로바 램프(Lamp)…. AI 스피커 개발과 함께 시작된 클로바의 대표적인 AI 기술들이다. ‘네이버 AI랩’의 전신은 클로바 AI 리서치팀이다. 네이버는 그간 클로바를 중심으로 여러 AI 기술을 선보여 왔다.

최근 글로벌 AI 경쟁이 가속화되고 있다. 기술 주도권 전쟁 상황에서 미국의 빅테크 기업에 의해 공개된 기술을 활용하고 따라잡는 수준에 그칠 수 없다는 판단에 따라 네이버는 자체 AI 기술 경쟁력 확보를 중요 과제로 삼았다.

네이버는 ‘지속 가능한 성장’을 ‘함께’해 나가는 것을 AI 연구의 푯대로 세웠다. ‘글로벌 AI 기술 플랫폼’으로서 AI 기술을 활용해 똑똑하고 편리한 도구를 글로벌 사용자와 중소상공인·중소규모 창작가들에게 제공함으로써 함께 지속 가능한 성장을 도모한다는 계획이다.

지난해에는 글로벌 AI 기술 경쟁력 확보를 위해 한국(네이버), 일본(라인·Yahoo), 베트남, 유럽(네이버 랩스 유럽)을 잇는 ‘글로벌 AI 연구·개발(R&D)’ 벨트를 만들었다. 이에 더해 좀 더 공격적이고 장기적인 AI 선행 연구 투자를 위해 기존 클로바에 속해 있던 AI 연구팀을 전사 수준으로 확대 개편해 지난해 10월 초 연구소를 신설했다.

네이버 AI랩은 2017년 구글이 발표한 ‘트랜스포머(Transformer)’ 모델이나 딥마인드의 시스템 ‘웨이브넷(Wavenet)’처럼 혁신적인 연구를 수행하는 것을 미션으로 삼고 있다. 세계 최고 수준의 AI 학회에서 인정받는 논문을 발표하고 최신 AI 기술과 연구 결과를 공유하면서 네이버 전사 AI 역량을 강화하는 것도 주요한 역할이다. 하 책임리더는 “중·장기 선행 연구에 집중해 2~3년 후 세계를 놀라게 할 만한 연구 역량을 내재화하겠다”고 강조했다.

이를 위해 네이버의 AI 핵심 인력들이 머리를 맞댔다. 클로바·검색·랩스·라인 등 네이버의 여러 조직에서도 자체적으로 AI 선행 연구를 수행하며 동영상·쇼핑 등 각 서비스를 고도화하는 작업을 한다. 이들과의 협업을 통해 AI 기술이 사용자들에게 혁신적인 서비스가 되도록 가치를 제공할 계획이다. 네이버 AI랩과 기존 연구 조직과 다른 점은 좀 더 근본적이고 공통으로 활용될 수 있는 AI 기술을 연구하는 것이다. 클로바는 삶에 실제적 가치를 만들어 갈 다양한 AI 제품과 서비스에 집중하고 AI랩은 파급력 있는 연구를 수행한다는 점에서 차이점이 있다. 성 책임리더는 “클로바는 사람의 말을 이해하고 글을 읽고 대화하는 AI를 만들기 위해 다양한 AI 기술을 연구·개발해 왔다”며 “기존 연구를 고도화하는 작업과 함께 선행 연구를 지속하는 ‘집중’과 ‘확대’ 전략을 펴고 있다”고 말했다.

네이버 AI랩은 또한 AI의 근본 문제인 ‘신뢰 가능한 AI’, ‘AI 편향성’을 파악하는 데도 역량을 모은다. 미래 사업인 ‘헬스 케어’ 분야도 담당한다. 특히 편향성(bias) 문제는 AI 윤리 차원에서 최근 이슈를 불러일으키고 있다. 데이터와 알고리즘의 편향 문제는 인종·성차별로 대표된다. 특정 직업군에서는 ‘그’가 ‘그녀’보다 더 많이 나오기도 하고 인종에 따라 대출 심사 결과가 달라지기도 한다. AI의 오래된 담론인 편향성은 이제 학계를 넘어 기업에서도 주요한 관심사가 됐다. 하 책임리더는 “풀기 어려운 문제이지만 AI의 지속 가능성 발전을 위해서는 꼭 해결해야 하는 문제”라고 강조했다.

성 책임리더는 “사과가 빨갛다는 글과 노랗다는 글이 있을 때 AI가 그것을 일대일로 배우면 AI 모델은 둘 중 하나로 대답할 수밖에 없다”며 “AI 모델은 본 것만큼 비례하게 돼 있다”고 말했다. “AI 편향성 문제를 풀지 않고 AI를 고도화하면 우리가 만드는 서비스는 그 문제를 가질 수밖에 없습니다. 관찰된 현실이 이미 편향돼 있기 때문에 의도와 전혀 상관없이 데이터 수집 단계에서부터 편향성이 생기는 것은 필연적이죠. 추천 시스템만 하더라도 사람들이 많이 클릭한 이유는 호불호가 있어서가 아니라 많이 노출됐기 때문일 수 있습니다. 그래서 바이어스를 제거하지 않으면 의미가 없다는 논문이 나오기도 했습니다.”(성낙호)

영어 중심의 GTP-3, 왜 문제인가?
성 책임리더는 오픈에이아이(OpenAI)가 2020년 5월 내놓은 GTP-3의 사례를 들었다. GPT-3는 인터넷에서 찾을 수 있는 문서·책·위키피디아 자료 등 문자로 된 5000억 개의 단어를 학습한 언어 모델이다. 전 세계의 언어를 학습했지만 국가에 따른 차이는 분명 존재한다. 성 책임리더는 “인터넷상의 텍스트가 대략적으로 영어가 60.3%, 한국어가 0.6% 있다고 해도 GPT-3가 학습할 때는 영어를 92.65%, 한국어를 0.02% 썼다”며 “특정 회사가 데이터를 학습할 때 바이어스를 더 심하게 주는 것도 있다”고 말했다.

이는 ‘기술 종속성’ 위험으로 연결될 수 있는 점에서 의미 있는 대목이다. 하 책임리더는 “글로벌 기업에서 공개하는 기술을 적용하는 게 더 쉽지만 그렇게 되면 기술 경쟁력 측면에서 한계에 도달할 뿐만 아니라 글로벌 기업에 의해 잠식되면서 우리 국민들이 받게 될 서비스의 품질이 떨어질 것”이라며 “네이버 플랫폼의 중소상공인·창작자들과 글로벌 동반 성장을 하기 위해서는 기술 내재화가 필수적이며 중·장기 선행 R&D에 집중하는 이유도 여기에 있다”고 말했다.

기술 분야로 보면 클로바에서부터 진행해 온 대규모 범용 이미지·비디오·텍스트 인식 모델 및 학습 방법 연구, 새로운 이미지·텍스트·비디오 생성 모델 연구, GPT-3를 포함한 자연어 처리 연구를 중점적으로 진행한다. 그 과정에서 중요한 것은 단순히 기술이 아니라 제품이 주는 ‘사용자 경험’이 좋아야 한다는 것이다. 경험 자체를 최적화하는 문제를 풀기 위해 사람과 기계를 하나의 시스템으로 보고 접근하는 인간과 상호작용(HCI) 기술 연구도 중점적으로 다루고 있다.

대표적으로 전화를 대신 받아 주고 또 걸어 주는 AI가 있다. ‘AI 콜’로 소상공인들에게 서비스되고 있다. AI 콜은 네이버의 음성 인식과 합성 기술, 자연어 처리 기술 등이 적용돼 다양한 고객 지원 업무에 활용할 수 있다. 상담사의 기본 업무를 지원하는 것은 물론 고객의 감정 분석, 문서 요약, 상담 내 키워드 추출 등의 기능도 함께 제공한다.

HCI 기술은 대화의 의도를 파악하는 데도 효과적이다. 대화는 명료한 글과는 달리 불확실한 정보를 주고받는 과정으로 맥락을 고려할 필요가 있다. “사용자가 AI 스피커에 시간을 물으면 스피커는 “11시 13분입니다”라는 식으로 답하지만 사람들이 시간을 물을 때는 이유가 있을 겁니다. 12시가 약속이라면 필요한 대답은 “지금 나가야 한다”는 것에 더 가깝겠죠.”(하정우)

하 책임리더는 다양한 연구 가운데 네이버가 강한 분야로 ‘OCR 기술’을 꼽았다. OCR은 스캔한 영수증을 읽거나 PDF 문서 변환을 하는 등 기계가 읽을 수 있는 문자로 변환하는 기술이다. 클로바 OCR은 왜곡이 있거나 복잡한 이미지에서도 정확하게 텍스트를 인식하며 수기로 작성한 손 글씨의 인식률도 뛰어나다는 설명이다. 하 책임리더는 “OCR 기술은 세계 최고 수준이고 한국어·일본어 음성 인식과 합성 또한 세계 최고 수준”이라고 자평했다. 그는 “구체적으로 경량화된 범용 이미지 인식 모델은 2019년 5월 구글이 공개한 이미지 인식 기술인 이피션트넷(EfficientNet)보다 더 빠르고 성능이 좋은 모델을 만들어 블로그·쇼핑·예약 등 다양한 서비스에 적용하고 있다”며 “이미지 인식에서 구글 모델을 대체한 결과 정확도가 더 올라가고 실행 속도가 빨라지는 것을 확인하고 소스 코드와 모델을 공개하고 있다”고 말했다.

자체 개발한 얼굴 인식 기술도 유명한 모델 중 하나다. 얼굴을 바꾸는 생성 모델인 ‘StarGAN’과 ‘StarGAN v2’는 세계 최고 컴퓨터비전학회인 ‘CVPR 2020’에서 발표된 바 있고 지난 5월 스노(SNOW)의 중국 서비스에 적용됐다. 한국어·일본어 음성 인식과 합성 부문에선 세계 최고 음성신호 학회인 ‘인터스피치(Interspeech) 2020’에서 연세대와 함께 ‘베스트 스튜던트 페이퍼(Best student paper)’를 수상했다. 하 책임리더는 “AI 분야는 저널보다 톱 학회 정규 논문 발표 건수가 역량을 측정하는 중요 지표로 인식되고 있다”며 “2020년 클로바에서만 43건의 논문을 발표했고 이는 한국 기업들 중에서는 압도적인 1위이며 상위권 대학 AI 관련 학과의 실적과 유사하거나 그 이상”이라고 강조했다. 클로바뿐만 아니라 네이버랩스 유럽이나 검색 등 네이버 전사적으로 보면 80여 건에 육박하는 글로벌 수준의 연구 성과를 나타냈다.

성 책임리더는 “음성 인식과 합성에서 구글을 뛰어넘은 지 오래됐다”며 “음성 합성 기술은 사람보다 더 사람 같다는 평가를 얻을 정도로 향상돼 있다”고 말했다. 음성 합성 기술의 평가 척도는 ‘자연스러움’이다. 최근 네이버 뉴스의 본문 듣기 기능을 테스트한 결과 아나운서의 음성보다 아나운서 목소리의 합성음이 더 높은 점수를 얻기도 했다. 이 음성 합성 기술은 네이버의 ‘오디오북’ 서비스에 접목될 계획이다.

AI 후발주자? ‘AI 비즈니스’는 승산 있다
한국은 AI 후발 주자, 추격자라는 인식이 강하다. 여기에 대해 성 책임리더는 “과거 정보기술(IT) 붐 시절을 생각해 보면 인터넷을 만든 곳은 미국이었지만 ‘IT 산업’을 가장 먼저 꽃피운 곳은 한국”이라고 강조했다.

“AI도 지금 비슷하게 흘러가고 있습니다. 지금 카이스트 등 주요 대학에서 내는 논문 편수가 외국에 밀리지 않아요. 이미 한국의 AI 수준은 많이 올라왔고 비즈니스 영역에서 충분히 승산이 있다고 봅니다. 과거 IT 비즈니스를 다 만들어 놓고 미국에 내 준 경험이 있죠.1998~2000년 무렵 한국에서 뜨는 사업을 미국에 가져가면 소위 대박이 난다고 했습니다. 미국 기업은 생각보다 빨리 움직이지 않습니다. 전화 받는 AI는 우리가 세계 최초로 만든 것이죠. 최신의 기술로 해 보지 않던 일을 하는 데는 한국 사람이 가장 빠릅니다. 이번에는 뺏기지 않아야 하겠죠.” 성 책임리더는 또한 “이미 AI는 스스로 발전할 수 있는 궤도에 올랐고 다크데이터를 비롯한 활용되지 않은 빅데이터를 선점하는 국가나 기업이 주도권을 쥘 것으로 보인다”며 “역사는 반복되는데 이번에는 우리가 주도해 보자는 것”이라고 강조했다.

네이버 AI랩은 3년 후 ‘글로벌 톱10 인더스트리 AI 연구소’를 목표로 삼고 있다. 현재 목표는 세계 최고 수준의 AI 기술을 더 많이 연구·개발하고 이러한 기술을 서비스에 적용해 네이버가 글로벌 AI 기술 플랫폼 기업으로 거듭날 수 있도록 하는 것이다.

네이버가 한국을 대표하는 테크 기업인 만큼 책임감은 남다를 것이다. 하 책임리더는 “회사의 기본 철학이자 방향에 ‘글로벌, 중소상공인·중소창작자, 기술’ 등 세 가지 키워드가 있다”며 “지속 가능한 동반 성장을 AI로 돕는 것을 가능하게 하기 위해서는 자체적으로 고도화된 AI 기술력을 가져야 한다”고 강조했다.

예를 들어 네이버 스마트스토어에 입점한 중소상공인이라면 AI 도구를 활용해 캐츠프레이즈 문구나 영상 편집, 상품 추천, 수요 예측 등을 할 수 있다. 성 책임리더는 “과거 3대 방송국에서만 방송 콘텐츠를 제작하다가 유튜브로 옮겨 가면서 누구나 접근 가능해진 것처럼 앞으로는 상품을 판매하는 게 훨씬 쉬워질 것”이라며 “궁극적으로 생산자와 소비자만 남고 그 과정에서 필요한 툴들은 AI를 통해 도움을 받을 수 있을 것으로 본다”고 말했다.

최근 데이터 주권이라는 개념이 화두가 되고 있다. 네이버는 데이터 주권을 넘어 ‘AI 주권’을 지키는 것을 목표로 한다. 최근 구글 앱마켓의 인앱결제(자체 결제) 사태에서 알 수 있듯이 글로벌 기업의 AI 기술이 전 세계를 리드하게 되면 한국 사용자들에게 제공되는 서비스와 가치가 떨어질 수 있다. 성 책임리더는 “디지털 세상에서 통행세를 내는데 국가에 따라 소작농의 신세가 될 수도 있다”며 “AI에 대한 의존성이 커지면 국가 성장률에도 영향이 미치게 될 것”이라고 말했다.

네이버는 AI 주권을 위해 대규모 투자를 시작했다. 지난해 10월 초 한국 기업 최초로 700페타플롭스 이상의 성능을 갖춘 슈퍼컴퓨터를 도입한 것이다. 이를 기반으로 한국어·일본어에 대한 ‘초거대 언어 모델’을 구축할 계획이다. 지금의 GPT-3를 넘어서는 ‘한국형 GTP-3’를 개발해 다음 세대 AI 엔진으로 활용할 계획이다.

“GPT-3를 포함한 초대규모 AI 모델은 연구 관점에서 탐색해야 할 주제가 너무 많습니다. 이를 위해 네이버는 ‘한국의 AI R&D 리더’로서 자체 개발한 GPT와 슈퍼 컴퓨팅 자원을 바탕으로 AI 대학원·기업·스타트업을 포함해 국내외 최고 AI 연구자들과 함께 한국 ‘AI R&D 이니셔티브’를 만들 예정입니다. 이를 통해 사람들에게 편리하고 안전한 AI를 제공하기 위해 글로벌 경쟁으로부터 AI 주권을 지켜 나가는 것을 목표로 하고 있습니다.”(하정우)

“데이터 주권 넘어 AI 주권 지켜야”
클로바는 삶에 실제적 가치를 만들어 낼 다양한 ‘행동하는 AI’를 만들고 있다. GPT-3와 같은 초대형 AI를 개발하면 혁신의 속도를 높일 수 있다. 성 책임리더는 “초대형 AI 모델은 아직 연구 단계이지만 다양한 가능성을 보여주고 있다”며 “AI랩과 클로바는 협업을 통해 모델을 개선, 현실의 문제를 해결할 계획”이라고 말했다.

왜 슈퍼컴퓨터가 필요한 것일까. 하 책임리더는 “분야에 따라 다르지만 AI는 예상보다 빠르게 진화하면서 특정 분야에서 모델의 크기나 성능이 상상을 초월하고 있다”며 “기술을 크게 인식류와 생성류로 나눈다면 특히 생성류의 기술은 많은 컴퓨팅 자원과 데이터가 필요하기 때문에 기업을 중심으로 발전할 수밖에 없다”고 설명했다. 그는 “미래에는 이 기술을 가진 회사와 아닌 회사로 구분될 것”이라고 말했다.

성 책임리더는 “과거 IT업계가 학계에서 업계로 대체됐던 것처럼 AI도 점차 ‘대형화’ 추세로 흐르면서 기업용 데이터를 확보한 곳에서 연구를 주도하게 될 것”이라고 말했다. 하 책임리더는 “네이버는 그런 측면에서 ‘데이터’, ‘컴퓨팅 자원’, ‘맨 파워’, ‘의지’ 등 4박자를 갖춘 곳”이라고 덧붙였다.

네이버는 슈퍼컴퓨터 도입과 함께 ‘AI R&D 이니셔티브’의 일환으로 서울대·카이스트·뉴욕대 등 연구진과 함께 한국어 모델을 평가하는 데이터 세트 ‘클루’를 만들고 있다.

네이버 AI랩은 교육에 대해서도 남다른 철학을 밝히고 있다. 하 책임리더는 “AI는 인터넷·모바일과 같이 기술을 넘어 생활을 바꾸는 패러다임으로 AI 기술 역량을 향상시키기 위해서는 AI 인재 양성이 가장 핵심적인 요소”라며 “세계 최고 수준의 AI 연구자도 중요하지만 AI를 통해 실세계 문제를 해결할 수 있는 인재들도 훨씬 많이 필요하다”고 밝혔다.

그런 관점에서 네이버는 대외적으로 AI 인재 양성에도 많은 노력을 기울이고 있다. 작년 여름 열린 ‘AI 러시(Rush) 2020’이 대표적인 예다. ‘AI 러시 2020’은 일반적인 AI 경진 대회와 달리 외부 개발자들이 네이버 서비스의 데이터를 활용해 네이버의 개발자들과 함께 문제를 풀고 실제 서비스에 적용했다. 네이버 커넥트재단 중심의 소프트웨어 개발자 양성 프로그램인 부스트캠프는 올해 AI 트랙을 별도로 편성해 20주간 AI 개발자 양성 프로그램을 운영할 예정이다.

또한 카이스트 전산학부와 AI 과목을 함께 편성하고 네이버의 개발자들이 직접 강의에 참여하면서 실전형 AI 문제를 경험하도록 돕고 있다. 연세대 전자전기공학부 대학원 정규 과목으로 네이버 AI랩과 클로바에서 연구·개발한 기술과 서비스들을 강의하기도 했다.

하 책임리더는 “세계적 AI 연구자, 현실 문제를 잘 정의하고 AI를 활용해 이를 잘 해결하는 AI 활용 전문가, AI 기술을 활용해 멋진 서비스와 제품을 만들어 내고 운영하는 AI 엔지니어링 전문가 등 다양한 전문가가 필요하다”며 “공통적으로 필요한 역량은 바로 창의성과 성장 가능성이고 그 무엇보다 중요한 것은 교육은 길게 보고 꾸준히 투자해야 한다는 것”이라고 강조했다.

charis@hankyung.com
[본 기사는 한경비즈니스 제 1312호(2021.01.18 ~ 2021.01.24) 기사입니다.]