설민석 논문 표절 잡아낸 카피킬러…60억 건 데이터 갖춘 AI 기업 │ 매거진한경

-HELLO AI : 활용 사례
-AI 기업 무하유, 지난해 매출 65% 증가…일본에서 서비스 출시하고 세계 시장 공략 나서

한국사 강사 설민석 씨와 가수 홍진영 씨의 논문 표절이 도마 위에 오르자 덩달아 이슈가 된 인공지능(AI) 기업이 있다. 표절 검사 서비스 ‘카피킬러’를 개발한 무하유다.

2011년 문을 연 무하유는 2000개 기관에 카피킬러를 납품하고 있다. 국책 기관의 70%가 카피킬러 이용 계약을 했고 60억 건의 비교 데이터를 보유하고 있는 독보적인 지위에 있다.

2018년 AI 채용 프로그램 ‘카피킬러 HR’로 성장 동력을 확보했고 2020년 데이터 라벨링 서비스를 출시하며 몸집을 키웠다. 표절 검사, AI 서류 채용 평가, 데이터 라벨링 모두 ‘자연어 처리(NLP)’ 기술을 기반으로 한다.

“무하유는 반복적인 서류 업무로부터 모든 직장인을 해방하자는 목적을 가지고 시작했습니다. AI의 본질은 인간의 반복적인 업무를 구조화해 이를 대체하는 것이라고 생각합니다. 인간이 일의 본질에만 집중할 수 있게 도와주는 역할이죠.”

무하유를 설립한 신동호 대표는 AI를 전공한 엔지니어 출신이다. 신 대표는 본인을 ‘담대한 사업가’가 아닌 ‘소심한 엔지니어’라고 소개했다.

무하유는 사업을 시작한 이후 10년 동안 매출이 하락한 적이 없다. 표절 검사 서비스로 기관과 기업의 신뢰가 쌓였고 AI 채용 분야로 시장을 넓히자 매출이 급증했다. 2020년 매출은 전년 대비 65% 정도 늘었고 회사는 전세를 벗어나 3배 확장하며 새로운 곳에 자리 잡았다.

무하유 직원의 평균 연령은 30대 초반이다. AI 회사답게 기업 문화가 빠르고 주도적이다. 직원 개개인이 문제를 발굴하고 해결책을 제시하는 개발자 문화다. 다른 정보기술(IT) 회사와 달리 문과 출신 비율도 높다. 언어 데이터를 선별하고 데이터 품질을 측정하기 위해 정보의 성질을 전문적으로 파악할 수 있는 문헌정보학과나 언어학을 이해하고 있는 국문학과 출신도 높은 비율을 차지하고 있다.

◆인공지능 빙하기 출신 엔지니어, AI 사업화

신 대표가 AI를 연구하던 1990년대는 ‘AI 빙하기’로 분류된다. 1970년대부터 AI에 부푼 희망을 걸고 연구가 이어져 왔지만 상용화에 실패하고 PC 시대가 도래했을 때였다.
“당시 연구 과제 제목에 ‘인공지능’이 들어가면 교수님들이 말릴 정도였어요. AI에 아무런 전망도, 가능성도 보이지 않던 시절이었죠. AI 연구가 가장 뜨거운 지금과는 상반되는 상황이었죠.”

신 대표는 녹록하지 않은 연구 상황에서 ‘지능이란 무엇인가’부터 파고들었다. AI에 대한 폭을 넓히기 위해 인지과학적 관점에서 지능을 연구했다. 인지과학은 언어학·심리학·철학·신경과학을 연결해 인간의 지능을 연구하는 학문이다. 컴퓨터에 지능을 부여하기 위해서는 사람이 어떻게 생각하는지, 어떻게 학습하는지, 이를 통해 어떻게 행동하는지를 알아야 했다.

수많은 AI 기술 중 ‘NLP’를 기반으로 한 표절 검사 서비스를 사업화한 이유는 ‘지식의 계보’에 매력을 느꼈기 때문이다.
“인간의 지능은 문자가 발명되고 텍스트가 축적되면서 고도화됐습니다. 개나 고양이도 물체를 인식하고 구별할 수 있는 시지각이 발달돼 있지만 언어에 의한 텍스트 축적은 인간만의 영역이었죠. 수많은 지식이 축적돼 오면서 연구는 인용과 참조를 통해 발전해 왔습니다. 생각의 근원을 밝혀내는 작업이 매력적이라고 생각했습니다.”

카피킬러는 단순한 문장 표절이 아니라 문맥을 파악한다. 이를 통해 이곳저곳에서 적절하게 짜깁기한 표절 패턴도 잡아낸다. 신 대표는 “카피킬러가 개발되기 이전에는 단순히 A 논문과 B 논문을 비교하는 접근이었다면 카피킬러는 하나의 논문을 파악할 때 이를 파편화하고 부분적으로 출처를 파악한다”고 설명했다.

단순히 문장이 똑같다고 해서 표절로 인식하는 것도 아니다. 어떤 문장은 굳이 베끼지 않아도 충분히 생각해 낼 수 있는 문장이 있는 반면 남의 표현을 그대로 가져 오지 않고는 똑같을 수 없는 파편도 있다. 카피킬러는 텍스트를 파편화하고 문맥에 따른 내용 이해 기술을 통해 표절 여부를 판단한다.

또 외국 논문이나 자료를 번역한 문장은 표절로 취급하지 않는다. 신 대표는 “표절은 민감한 문제인 만큼 까다롭고 보수적으로 규정해야 한다”며 “번역은 그 과정에서 단어 대치나 해석의 방향성이 다양해질 수 있다”고 말했다.

◆60억 건 데이터 처리 기술이 경쟁력

무하유의 기술 경쟁력은 방대한 데이터 처리 용량이다. 카피킬러가 색인하는 기준 데이터의 양은 약 60억 건에 달한다. 신 대표는 처음부터 ‘글을 쓰는 사람이 참고할 만한 자료를 다 뒤져 가져오자’고 생각했다. 실시간 포털 검색부터 기관과 연구재단에서 오픈 엑세스로 제공하는 모든 문서들을 기준 데이터로 설정했다.

“20년 전 AI 빙하기 시기에도 연구실 안에서만큼은 AI 기술이 실현 가능했어요. 도메인을 줄이고 통제된 상황에서는 날고 기던 기술도 실제 현장에 적용하면 바보가 되는 경우가 허다했죠. 시범 도로에서는 잘 굴러가던 자율주행차가 실제 도로 환경에서는 제대로 작동하지 않는 맥락과 비슷합니다. 연구실에서 몇 천 건, 몇 만 건의 빅데이터를 처리하는 것은 쉽지만 60억 건의 빅데이터를 실시간으로 처리하고 이를 사업화하는 일은 어렵습니다.”

신 대표는 자연어 처리 기술로 확보한 원천 기술을 AI 서류 채용 평가 서비스 ‘카피킬러 HR’로 확장했다. 한정된 채용 인력이 수만 건에 달하는 자기소개서를 봐야 하는 어려움을 해결하기 위해서다.
“AI 채용 프로그램을 개발하며 중소기업의 역할을 고민했습니다. 대기업이 IT 자회사를 통해 AI 채용 프로그램을 개발할 수는 있지만 다른 프로젝트가 많다 보니 AI 채용에만 집중하기는 힘들어요. 매번 기술을 고도화하고 유지·보수하는 데도 한계가 있죠. 팀별 소통이 어려울 때도 많고요. 하지만 우리는 클라이언트를 만족시키기 위해 끊임없이 업데이트하고 기술을 고도화해 나갑니다.”

AI 채용 프로그램의 모든 평가 기준은 실제 HR 전문가의 평가 기준이다. 신 대표는 “무하유만의 별도 기준을 마련하기보다 기존 인사 담당자들의 전문성을 기준으로 삼고 있다”며 “이를 위해 인사 담당자들을 깊게 인터뷰하며 기술을 고도화했다”고 말했다. 딥러닝 기술은 기업별 합격자 자기소개서를 학습했고 수많은 데이터로부터 잘 쓴 자소서와 못 쓴 자소서의 특징들을 자동적으로 분석해 학습한다.

그는 “비정형 텍스트인 자기소개서는 문맥에 따른 내용 이해 기술이 필수적”이라며 “딥러닝 기술을 적용해 그동안 불가능하다고 여겨졌던 자연어의 의미 이해 영역에 도전하고 있다”고 말했다.

무하유는 최근 카피킬러 일본어 서비스 ‘카피모니터’를 출시하며 글로벌 시장 공략에 나섰다. 첫 시장으로 일본을 택한 이유는 언어 구조가 한국어와 유사하기 때문이다. 한국 시장에서는 AI 채용 서비스를 확대할 계획이다.

신 대표는 “표절 검사 시장은 규모에 한계가 있어 어느 정도 궤도에 오른 후 해외 시장을 공략해야 하지만 AI 채용 시장은 사업 확장성이 크다”며 “향후 AI 서류 평가뿐만 아니라 채용의 다양한 과정에서 AI를 확대해 나갈 계획”이라고 말했다.

김영은 기자 kye0218@hankyung.com
[본 기사는 한경비즈니스 제 1312호(2021.01.18 ~ 2021.01.24) 기사입니다.]

매거진한경

설민석 논문 표절 잡아낸 ‘카피킬러’…60억 건 데이터 갖춘 AI 기업

섬산련, 3년간 800명 AI인재 배출...AI교육으로 '디지털 격차' 줄인다

전국 스키장 13곳 알바 모았다

“하루 5명도 안 와요” 서울시내 이동노동자 쉼터의 현실

[2023 서울과학기술대학교 스타트업 CEO] 매일 메뉴를 추천하는 AI 플랫폼 ‘오늘집밥’을 개발한 ‘온전히’

월급의 빈자리, ETF로 메워볼까

블록체인 기술로 하이브 아닌 '뉴진스'에 투자한다

MZ세대 눈높이 맞춘 쉽고 독한 투자

'농지' 은퇴 대비 노후 자산으로 주목받는 이유