초거대AI 경쟁의 승리 공식, 결국은 ‘데이터’와 ‘돈’

네이버·카카오, ‘기업 미래’ 걸어…챗GPT 발전 속도 따라잡는 게 관건

[스페셜 리포트]

27일 삼성동 코엑스에서 진행된 데뷰 컨퍼런스에서 하이퍼클로바X에 대해 소개하는 김유원 네이버클라우드 대표.(사진=네이버)

전 세계를 점령한 검색 엔진 구글이 유일하게 위세를 떨치지 못한 나라 중 한 곳이 한국이다. 네이버와 다음으로 대표되는 ‘한국형 검색 엔진’이 이미 시장을 꽉 잡았기 때문이다.

초거대 인공지능(AI) 산업에서도 이와 같은 양상이 벌어질 수 있을까. 한국 기업의 기술력에 대해 의심하는 사람은 없을 것이다. 하지만 글로벌 기업들의 AI 기술 발전 속도가 심상치 않다. 자칫하면 본격적으로 게임을 해 보기도 전에 밀려날 수도 있다.
조금이라도 지체하면 영원히 밀린다
2023년은 AI 산업의 변곡점이 되는 해다. 챗GPT 3.5가 공개된 지 불과 5개월 만에 오픈AI가 GPT4를 공개하면서 업계의 예상보다 빠른 속도로 생성 AI가 발전하고 있기 때문이다. 이 기사가 나갈 때쯤이면 어떤 중요한 변화가 또 일어났을 지도 모르는 일이다.

한국 업계에는 더 늦어지면 마이크로소프트와 구글이 주도하는 시장에 휠쓸려 갈 수밖에 없다는 위기의식이 싹트기 시작했다. 기껏 무언가를 개발해 놓으면 한참 앞서가는 기술이 쏟아지면서 그간 노력이 무용지물이 되기 때문이다. AI 산업에 꾸준히 투자해 온 한국 기업들로서는 이제는 결실을 내야 할 때라는 지적도 나온다.

한국 기업들 중에서 가장 많은 기대를 받는 곳은 네이버다. 네이버는 초거대 AI ‘하이퍼클로바X’를 7월 중 공개한다. 고객이 자체 보유한 데이터를 하이퍼클로바와 결합해 사용자 니즈에 맞는 응답을 즉각 제공할 수 있도록 업그레이드했다.

챗GPT와 차별화되는 점은 단연 ‘한국어 처리 능력’이다. 성낙호 하이퍼스케일AI 기술 총괄은 “하이퍼클로바X는 챗GPT 대비 한국어를 6500배 더 많이 학습하고 사용자가 바라는 AI의 모습을 발현할 수 있도록 개선된 AI”라고 말했다.

AI 반도체는 삼성전자와 함께 대규모 언어 모델(LLM)의 연산·학습·추론에 필요한 기능을 갖추면서 기존 그래픽처리장치(GPU) 대비 10분의 1 크기의 모델 사이즈, 4배 이상의 전력 효율성을 갖춘 경량화된 AI 반도체 솔루션을 만들고 있다고 밝혔다.

카카오의 AI 계열사 카카오브레인은 지난해 10월 초거대 AI ‘코지피티(KoG PT)’를 오픈 API로 무료 공개했다. 3월 19일에는 카카오톡으로 이용할 수 있는 AI 챗봇 ‘다다음’을 시범 서비스하기 시작했다. 다다음은 카카오브레인의 초거대 언어 AI 모델 ‘KoG PT’와 이미지 생성 모델 ‘칼로’가 결합된 서비스다. 텍스트 이미지화, 추천, 복잡한 정보 검색, 언어 공부, 번역 등이 가능하다. 다다음은 서비스 시작 하루 만에 1만3000여 명의 이용자를 모았는데 사용자 폭주로 하루 만에 일시 중단됐다.

LG는 2020년 그룹 차원의 AI 연구 허브로 설립된 ‘LG AI 연구원’을 중심으로 초거대 AI ‘엑사원’을 개발하고 있다. LG는 소프트웨어 등을 비롯한 신사업군에 5년간 10조원을 투입한다.

SK텔레콤은 3월 28일 열린 주주 총회에서 2023년을 ‘AI 컴퍼니’로 도약하는 한 해로 가겠다고 선포했다. 유영상 SK텔레콤 사장은 “에이닷을 필두로 한 AI 서비스로 고객과 기술의 거리를 좁히며 고객과의 관계를 혁신하겠다”고 밝혔다.

SK텔레콤의 세계 최초 한국어 거대 언어 모델 기반의 B2C 서비스 에이닷은 개인화된 캐릭터·대화·서비스 연계를 중심으로 고객에게 편리함을 제공하며 시장에 안착했다. 올해는 기억과 이미지 기반의 대화 기능을 강화하고 제휴 캐릭터와 연계 콘텐츠 확대를 통해 서비스를 고도화해 이용자 기반을 확대하고 글로벌 시장에 진출할 계획이다.

KT는 AI 반도체와 클라우드 등 AI 인프라와 응용 서비스를 아우르는 AI 풀 스택을 구축해 상반기 내 초거대 AI ‘믿음’을 상용화할 계획이다.


‘수익 모델’ 구축하는 것도 과제
2016년 ‘알파고 쇼크’를 겪은 이후 한국의 AI 산업은 나름의 성과를 거둬 왔다. 과학기술정보통신부에 따르면 2017년 기준으로 미국의 AI 기술 수준을 100으로 봤을 때 78% 수준이던 한국의 수준은 2021년 89.1%까지 발전했다.

하지만 생성 AI는 전혀 다른 양상을 보인다는 게 전문가들의 평가다. 챗GPT의 빠른 발전 속도를 고려하면 한국 기업들은 전과는 비교도 안 되는 속도와 투자를 통해 이 시장에 참전해야 한다는 것이다.

2020년 오픈AI가 발표한 ‘GPT-3’는 약 1조 개의 가까운 단어가 포함된 데이터세트로 훈련했다. 이에 따라 GPT-3는 다양한 언어 능력 과제에서 좋은 점수를 기록했고 세 자릿수 연산의 암호화에도 성공했다. 이후 AI 업계에서는 모델 스케일업의 중요성을 인지하게 됐다.

하지만 AI를 교육하는 데 필요한 데이터를 구하는 것부터 난항이다. 앞서 언급한 GPT-3의 사례에서 볼 수 있듯이 데이터 확보는 한국 AI의 학습에 가장 중요한 요소다. 그런데 온라인 콘텐츠 중 한국어로 작성된 콘텐츠는 0.5%에 불과하다. 이를 학습하려면 영어 콘텐츠와 데이터를 별도로 구입해야 하는데 이 구매 비용이 만만치 않은 것으로 알려졌다. AI가 학습할 수 있는 데이터의 양이 절대적으로 부족하다는 점은 한국 AI 기업들의 약점이다.

‘한국어에 특화된’ 생성 AI가 얼마나 차별화될 수 있을지도 미지수다. 네이버는 7월 공개될 하이퍼클로바X에 대해 ‘한국어 처리에 특화’됐다는 점을 강조했다. 이는 챗GPT가 한국어에는 비교적 약하다는 점을 고려해 한국어의 문법과 문화에 익숙한 서비스를 만들겠다는 전략인 셈이다.

반응은 엇갈린다. 김건희 서울대 컴퓨터공학부 교수는 “챗GPT를 써 보니 놀라운 점은 한국어 기능이 꽤 잘 갖춰져 있었다”며 한국 기업들이 한국어에 특화된 생성 AI를 내놓는 것이 예상보다 큰 기회를 가져오지 않을 것이라고 말했다. 김 교수는 “언어의 장벽이 빠른 속도로 낮아지고 있어 한국 기업들이 다소 보유하고 있는 한국어 데이터에 따른 강점은 시간이 지날수록 퇴색될 가능성이 높다”고 말했다.

절대적인 투자 규모에서도 한국 기업들은 이미 마이크로소프트를 등에 업은 오픈AI와 구글 등을 따라잡지 못하고 있다. 올해 초 마이크로소프트는 오픈AI와 파트너십을 연장했는데 투자 규모는 약 100억 달러(약 13조원) 규모로 추정된다. 오픈AI가 GPT-3 언어 모델을 개발하기 위해 쓴 비용은 1200만 달러, 우리 돈으로 약 156억원에 달하는 것으로 알려져 있다. 데이터를 사는 것부터 막대한 금액이 필요할 뿐만 아니라 하나의 언어 모델을 개발하기 위해 100억원이 넘는 돈을 투자해야 한다. AI 산업의 경쟁력이 결국은 ‘돈’에 의해 좌우될 것이란 예상까지 나오는 배경이다.

결국 회사는 수익을 내야 한다. 생성 AI를 통해 얼마만큼의 수익성을 이룰 수 있느냐는 향후 AI 산업이 얼마만큼 클 수 있느냐와 직결돼 있다. 기업은 수익을 내는 사업에 투자를 이어 갈 수밖에 없기 때문이다.

이에 대해 전문가들은 한국 정보기술(IT) 기업들이 기존에 시행하던 비즈니스 모델에 적용하는 방식으로 수익성을 추구할 수 있을 것이라고 말했다. 한층 강화된 초거대 AI를 기존 비즈니스의 성능에 향상시키는 것에 더하는 형태다. 김 교수는 “네이버의 예를 들자면 글로벌 시장에서 강세를 보이는 콘텐츠나 쇼핑 영역 등에 생성 AI를 접목하는 방향으로 수익성을 추구할 수 있을 것”이라고 말했다.

이명지 기자 mjlee@hankyung.com
상단 바로가기