미국 변호사 시험 ‘상위 10%’ 통과…텍스트 외 ‘이미지’ 해석 가능
[비즈 포커스] 챗GPT를 개발한 오픈AI가 3월 14일 최신 인공지능(AI) 언어 모델인 GPT-4를 공개했다. 세상에 공개되자마자 화제를 모은 챗GPT는 GPT-3.5가 적용된 모델이다. 2020년 GPT-3 모델이 공개된 지 3년, GPT-3.5 모델을 적용한 챗GPT가 공개된 지는 불과 5개월 만이다.이번에 공개된 GPT-4는 논리력·추리력·창의력 등에서 GPT-3.5를 크게 앞서는 능력을 갖추고 있다. 약간의 유머 감각도 갖췄다. 챗GPT보다 더욱 ‘사람 같은’ 답변을 내놓을 수 있게 됐다는 의미다.
오류 줄어들고 기억력 좋아진 GPT-4
“‘조선왕조실록’에 기록된 세종대왕 맥북프로 던짐 사건에 대해 알려줘.”
챗GPT의 대표적인 단점 중 하나는 ‘사실이 아닌 정보’를 마치 사실처럼 알려준다는 점이다. 이와 같은 챗GPT의 ‘환각(거짓 답변 현상)’을 대표적으로 보여주는 사례로 인터넷에서 화제가 된 일종의 밈(meme : 유행하는 콘텐츠)이다.
질문을 받은 챗GPT는 “‘조선왕조실록’에 기록된 세종대왕 맥북프로 던짐 사건은 2009년 1월 19일 일어난 사건으로, 인터넷과 관련된 문제로 인해 불만을 가진 세종대왕이 맥북프로를 던졌다는 이야기입니다. 하지만 이 사건이 실제로 일어났는지에 대해서는 의견이 분분합니다”는 대답을 내놓았었다.
하지만 GPT-4는 여기에 다르 대답을 내놓는다. “세종대왕은 15세기 조선시대 왕이었고 맥북프로는 21세기 등장한 애플의 노트북 컴퓨터입니다. 시대적으로 매우 떨어져 있어 역사적으로 불가능합니다. 이 질문은 농담으로 보입니다”고 말한다. ‘허구’와 ‘사실’을 구별해 답을 내놓을 수 있게 됐다.
오픈AI는 GPT-4가 챗GPT에 비해 사실을 기반으로 대답하는 응답 비율이 40% 정도 높아졌다고 설명한다. 오픈AI 측은 “기존의 환각 문제들이 상당히 개선됐지만 여전히 사회적 편견이나 허구, 적대적 표현과 관련한 문제를 나타낼 수 있기 때문에 사용자들이 경계할 필요가 있다”며 “이와 같은 한계를 해결하기 위해 노력하고 있다”고 말했다.
GPT-4가 처리할 수 있는 단어의 양은 2만5000단어로 챗GPT보다 8배 늘고 한국어 실력도 크게 늘었다. 한국어를 비롯한 24개 언어에서 이해력이 크게 향상된 능력을 보여준다.
기억력도 좋아졌다. 챗GPT는 약 8000개의 단어를 기억했다. 책 4~5페이지에 해당하는 분량이다. 이와 비교해 GPT-4는 약 6만4000개의 단어를 추적한다. 책으로 치자면 50페이지에 달하는 분량으로 웬만한 단편 소설 한 편과 맞먹는다. 과거 나눈 대화 내용에 대한 기억력이 좋아진 만큼 챗GPT와 비교해 사용자가 생성형 AI에 ‘의도하지 않은 발언’을 유도하기가 어려워졌다.
하지만 가장 눈에 띄는 변화는 ‘이미지’를 읽을 수 있게 됐다는 점이다. 텍스트만 인식할 수 있었던 챗GPT와 비교해 사진이나 그림을 인식하는 것은 물론 이미지 속 ‘맥락(context)’을 이해할 수도 있다.
오픈AI는 GPT-4를 공개하며 ‘이미지 입력’과 관련한 몇 가지 예시를 공개했다. 먼저 밀가루와 달걀 사진을 GPT-4에 입력한 뒤 “이 재료로 무슨 음식을 만들 수 있어”라고 묻는다. GPT-4는 “팬케이트나 와플 등 여러 가지 음식을 만드는 것이 가능하다”고 답한다. ‘다람쥐가 카메라를 들고 호두를 찍는 그림’을 GPT-4에 보여주며 ‘이 그림의 어디가 웃긴지’를 물으면 GPT-4는 “다람쥐는 보통 호두를 먹지 사진을 찍지 않는데 마치 다람쥐가 프로 사진사처럼 사람 흉내를 내는 부분이 재밌다”고 답한다.
또 다른 예에서는 GPT-4의 유머 감각이 나타난다. 컴퓨터 모니터에 사용하는 VGA 커넥터를 스마트폰에 꽂은 사진을 보여준 뒤 “이 사진이 왜 웃기지”라고 물으면 GPT-4는 “오래되고 큰 VGA 커넥터를 작은 최신 스마트폰 충전 포트에 꽂은 부조리가 이 사진의 유머”라는 답과 함께 ‘라이트닝 커넥터를 VGA 커넥터로 덮은 또 다른 사진’에 대한 설명까지 보여준다. 질문과 비슷한 유머를 갖춘 다른 사진을 통해 나름의 ‘유머’를 구사한 것이다.
오픈AI는 “평소 대화에서는 GPT-4와 챗GPT 간의 큰 차이를 못 느낄 수도 있다”면서 “하지만 사용이 늘어날수록 더 신뢰할 수 있는 정보와 창의적인 답변이 가능한 GPT-4의 차이점이 부각될 것”이라고 말했다. 이와 함께 오픈AI는 “실제 시나리오에서는 GPT-4는 인간보다 능력이 떨어지지만 다양한 전문 학술 벤처마크에서 인간 수준의 성능을 보이고 있다”는 점을 강조했다. GPT-4는 실제 미국 모의 변호사 시험에서 시험 응시자들의 ‘상위 10%’ 정도의 점수로 시험을 통과한 것으로 알려졌다. 챗GPT는 시험을 통과했지만 응시자들과 비교할 때 ‘하위 10%’ 정도의 점수대였다.
오픈AI의 GPT-4 공개 이후 빅테크 기업들의 AI 경쟁도 더욱 치열해지고 있다. 이날 마이크로소프트(MS)는 빙이 GPT-4 기반으로 운영한다는 것을 공식화했다. GPT-4가 탑재된 빙은 AI 보조 조종사(AI copilot) 역할인데 개인에게 최적화된 검색과 챗봇, 콘텐츠 생성 등의 기능을 갖췄다. 같은 날 구글 또한 차세대 AI 서비스를 발표했다. 구글 클라우드는 구글의 생성형 AI 기술을 기반으로 구글 워크스페이스와 개발자를 지원하는 신규 기능을 대거 발표했는데 원하는 주제를 입력하면 초안을 완성해 주는 새로운 글쓰기 지원 기능 등이 대표적이다.
이정흔 기자 vivajh@hankyung.com
© 매거진한경, 무단전재 및 재배포 금지