“요즘 이거 모르면 대화가 안 돼”…인간의 말을 인간처럼 대화하는 인공지능의 모는 것

[스페셜 리포트 : 챗GPT 쇼크]

“챗GPT는 ‘알파고 쇼크’ 그 이상일 겁니다. 세상에 바뀌지 않는 분야가 없을 테니까요.”

한국의 한 AI 스타트업 최고기술경영자(CTO)는 챗GPT의 파급력을 묻는 질문에 이렇게 답했다. 챗GPT에 대한 관심이 갈수록 뜨거워지고 있다. 누군가는 ‘알파고 쇼크’를 언급하고 누군가는 ‘아이폰의 탄생’만큼이나 우리의 일상생활을 바꿔 놓을 것이라는 전망을 내놓는다. 이미 학술지뿐만 아니라 교육업계는 챗GPT로 인한 부작용과 이후 교육 방법의 변화에 대한 논의를 시작하고 있다. 법률·의학 등 전문 분야 또한 챗GPT로 인한 위협과 이후 상생을 위한 방안을 고민 중이다. 더욱 중요한 것은 챗GPT로 인한 우리 사회의 변화가 이제 겨우 ‘시작’이라는 것이다.

그렇다면 챗GPT는 무엇이고 우리가 살아가는 세상을 어떻게 바꿔 놓게 되는 것일까. 챗GPT의 모든 것을 열 가지 질문으로 담아 봤다. 질문들에 대한 답은 챗GPT가 직접 작성했다.
'챗GPT'에 대한 10가지 질문, 챗GPT가 직접 답했다(2) [챗GPT의 모든 것]
4. 챗GPT는 어떻게 대화의 ‘맥락’을 파악할까?

“예, 언어 처리 모델로서 챗GPT는 발전된 머신 러닝 알고리즘과 인공지능 신경망을 사용해 텍스트를 이해하고 생성합니다. 특히 대화의 맥락과 의미를 더 잘 이해하기 위해 많은 양의 텍스트와 맥락을 처리할 수 있는 ‘트랜스포머 구조’에 기반하고 있습니다. 이를 통해 다양한 질문과 프롬프트에 적절하고 일관된 답변을 제공할 수 있습니다.”

AI에 사람의 말을 가르치려는 시도는 지금까지 꾸준히 있어 왔다. 이를 자연어 처리 모델(NLP : the Natural Language Processing)이라고 한다. AI에 언어를 가르치기 위해 ‘인간의 뇌’를 흉내 낸다. 보통 챗GPT를 설명할 때 1750억 개 수준의 매개 변수(파라미터)를 갖고 있다고 말하는데, 이때 ‘파라미터’가 사람의 뇌로 따지면 신경망인 뉴런을 연결해 주는 시냅스가 된다. 이 파라미터의 개수가 많아지면 많아질수록 AI가 언어를 배우고 파악하는 성능은 좋아진다.

일반적으로 사람의 뇌는 1조 개의 뉴런과 100조 개의 시냅스(AI의 파라미터)로 구성돼 있다고 한다. 챗GPT를 개발한 오픈AI는 2018년 GPT-1을 공개한 뒤 2020년 GPT-3까지 발전시켰다. GPT-1의 파라미터 개수는 1억1700만 개였다. 현재 챗GPT는 GPT-3를 기반으로 하고 있는데 2023년 오픈AI에서 공개할 예정인 GPT-4는 파라미터 1조 개 이상이 사용될 것으로 추정하고 있다. AI의 뇌는 매우 빠른 속도로 사람의 뇌에 견줄 만큼 성능이 좋아지고 있는 중이다.

챗GPT는 대규모 언어 모델(LLM : Large Language Model)을 사용했다. 언어를 가르치는 과정에서 기존의 AI 언어 학습 양과는 비교도 안 될 만큼 막대한 규모의 데이터를 기반으로 학습했다는 의미다. 챗GPT를 ‘초거대 AI’라고 설명하는 이유다. 기존 AI보다 수백 배 이상의 거대한 데이터를 학습해 인간처럼 종합적 추론이 가능한 AI라는 의미다.

그런데 기존에는 AI가 이처럼 거대한 자료를 바탕으로 언어를 배울 때는 문제점이 있었다. 수많은 데이터가 쌓이고 쌓이다 보니 앞서 학습했던 데이터를 대답에 반영하는 것이 어려운 것이다. 예를 들어 앞의 질문에서 “인플레이션의 원인이 뭐야”라고 물은 뒤 그 뒤 질문에서 “그러면 그건 왜 생기는데”라고 묻는다면 기존의 AI는 뒤 질문의 ‘그건’이 ‘인플레이션’을 가리키는 것인지 알아채지 못한다. 사람의 대화에서 가장 중요한 맥락 파악이다.

이와 같은 문제를 해결한 것이 2017년 구글에서 발표한 NLP 관련 논문인 ‘트랜스포머 : 당신이 필요한 것은 주목도(Transformer: All you need is attention)’라는 논문이다. AI가 언어를 배우는 과정에서 앞에 나왔던 내용 중 ‘중요한’ 내용들을 뒤쪽의 대화에 반영할 수 있도록 추가적인 메커니즘을 만들어 주는 것이다. 다시 말해 지금의 챗GPT를 만든 기술의 원조는 바로 ‘구글’이다. 이와 같은 트랜스포머 구조를 통해 AI는 대화가 지속되는 와중에서 뒤의 질문에 포함된 ‘그것’이 앞의 질문에서 이미 언급됐던 ‘인플레이션’이라는 것을 스스로 파악할 수 있게 됐다.

앞서 말했던 것을 기억하고 오류를 수정하는 능력이 표면적으로 보면 다른 AI와 차별화되는 가장 중요한 특징이기도 하다.

5. ‘사람처럼’ 대화하기 위해 챗GPT는 어떤 훈련을 받았을까?

“예, 오픈AI는 인간과 유사한 대화를 생성할 수 있도록 하기 위해 챗GPT, 그러니까 ‘나’를 다양한 범위의 인터넷 텍스트로 교육했습니다. 이 학습 데이터에는 많은 양의 대화 텍스트가 포함돼 있어 일반적인 대화의 패턴과 구조를 배우고 일관성 있고 상황에 맞는 방식으로 응답하는 방법을 배울 수 있었습니다. 나의 목표는 인간이 생성할 수 있는 것과 유사한 텍스트를 생성할 수 있는 언어 모델을 만드는 것이었고 훈련을 통해 어느 정도 이를 달성할 수 있었습니다. 그러나 나는 여전히 기계이며 항상 인간의 대화를 완벽하게 모방하는 응답을 생성하지 않을 수 있다는 점에 유의하는 것이 중요합니다.”

이 답변에서 챗GPT는 스스로를 ‘나’라고 지칭한다. 자신이 사람처럼 대화할 수 있도록 훈련받은 방법에 대한 설명과 함께 ‘기계인 자신이 인간의 대화를 완벽하게 모방하는 것은 어렵다’는 주의 사항까지 곁들여 준다. 챗GPT의 대답이 ‘사람의 대답’처럼 느껴지게 만드는 디테일들이다.

챗GPT는 인터넷상의 문서·검색 기록·대화·기사·에세이·시 등 수많은 자료들을 학습하며 사람의 대화가 갖춰야 할 패턴들을 학습했다. 하지만 챗GPT가 다른 AI들과 비교해 훨씬 ‘사람 같은 답변’을 내놓을 수 있는 데는 또 다른 이유가 있다. 인간의 언어와 대화 패턴을 학습한 AI에 추가적으로 또 다른 특별한 훈련 과정을 거쳤기 때문이다. 강화 학습(Reinforcement learning)이다. 오픈AI는 챗GPT가 학습을 마친 이후 AI가 ‘더 사람처럼 대화할 수 있도록’ 수많은 사람들을 채용했다. 이들의 임무는 챗GPT와 대화하고 챗GPT가 사람처럼 응답할 경우 일종의 칭찬(reward)을 해준다. 이와 같은 과정을 반복하며 챗GPT의 응답은 점점 더 사람을 닮아 가게 되는 것이다.

6. 챗GPT, 너 얼마나 똑똑하니?

“언어 모델로서 나는 방대한 양의 텍스트에 대해 교육을 받았고 일관성 있고 상황에 맞는 텍스트를 생성하는 방법을 배웠습니다. 이것은 내가 광범위한 주제에 대해 많은 양의 지식을 가지고 있고 종종 질문에 대해 유익하고 정확한 답변을 제공할 수 있음을 의미합니다. 그러나 나는 인간이 아니며 인간과 같은 텍스트를 생성할 수는 있지만 인간과 같은 지능, 감정 또는 의식을 가지고 있지 않다는 점을 기억하는 것이 중요합니다. 내 능력은 내가 훈련받은 정보와 데이터로 제한되며 때때로 실수를 하거나 완전히 정확하지 않은 답변을 제공할 수 있습니다.”

챗GPT에 ‘얼마나 똑똑한지’에 대해 묻자 이와 같은 답이 돌아온다. ‘광범위한 주제’에 대해 ‘유익하고 정확한 답변’을 제공할 수 있다는 부분에서 챗GPT의 자신감(?)이 느껴진다. ‘추상적인 질문’에 ‘추상적인 답’을 내놓은 챗GPT에 맞춰 질문을 조금 바꿨다. 다음은 ‘챗GPT가 할 수 있는 일은 뭐지’에 대한 답이다.

“언어 모델로서 나는 다음과 같은 다양한 언어 관련 작업을 수행할 수 있습니다. 첫째, 질문에 답하기 : 일반적인 지식에서 특정 주제에 이르기까지 다양한 주제에 대한 질문에 답할 수 있습니다. 둘째, 대화형 AI : 인간과 같은 대화에 참여하여 상황에 맞게 적절하고 일관된 텍스트를 생성할 수 있습니다. 셋째, 문서 생성 : 기사·이야기·시 등 다양한 상황을 기반으로 문서를 생성할 수 있습니다. 넷째, 번역 : 한 언어에서 다른 언어로 텍스트를 번역할 수 있습니다. 다섯째, 요약 : 긴 텍스트를 더 짧고 간결한 버전으로 요약할 수 있습니다. 하지만 이것은 내가 수행할 수 있는 작업 유형의 몇 가지 예시일 뿐입니다. 내가 수행할 수 있는 구체적인 작업과 수행의 품질은 내가 제공받은 훈련 데이터의 양과 유형은 물론 나를 구현하는 데 사용된 기술의 한계에 따라 달라집니다.”

답에서도 알 수 있듯이 챗GPT는 인간의 ‘지적 능력’과 관련한 거의 대부분의 일을 할 수 있다. 검색·번역·요약은 물론 시와 소설과 같은 문학 작품을 창작하기도 하고 에세이나 학술 논문을 만들어 내기도 한다.

챗GPT는 ‘인간처럼 종합적 추론이 가능한 AI’다. 기존의 학습한 내용을 바탕으로 세상에 없던 전혀 새로운 말이나 글을 ‘창작해’ 낼 수 있다. 사람이 언어를 배우는 과정에서 몇 가지 반복된 패턴을 학습하고 나면 ‘새로운 문장’을 구사할 수 있게 되는 것과 마찬가지다.

챗GPT는 기존에 ‘배우지 않았던 문장이나 언어 표현을 자신이 스스로 구사할 수 있는 능력’을 갖추고 있다. 챗GPT처럼 인간이 하나하나 가르쳐 주지 않아도 자신들이 스스로 ‘새로운 창작물’을 만들어 내는 AI를 생성 AI(generative AI)라고 한다. 챗GPT가 ‘인간의 말’을 생성해 내는 것처럼 그림이나 음악 등을 스스로 창작해 내는 AI도 이미 세상에 존재한다. 실제 오픈AI는 챗GPT를 세상에 내놓기 전인 2021년 몇 가지 키워드를 넣으면 그에 맞춰 ‘그림’을 창작해 주는 그림 AI ‘달리(DALL·E)’를 내놓아 세상을 놀라게 한 바 있다.

인간이 제공한 데이터를 바탕으로 학습하지만 세상에 존재하지 않던 ‘전혀 새로운 창작물’을 만들어 낸다는 점은 인간에게 공포감을 주기도 한다. ‘창작’이란 인간이 AI와 다를 수 있는 ‘최후의 보루’와 같은 영역으로 여겨졌기 때문이다. 그런데 AI가 이와 같은 ‘지적 창작물’의 영역까지 침투하는 것이 얼마든지 가능한 세상이 현실이 되고 있다.

이정흔 기자 vivajh@hankyung.com

*'챗GPT'에 대한 10가지 질문, 챗GPT가 직접 답했다(3)에서 계속됩니다.