[ AI·tech 인공지능 따라잡기]
- 딥 러닝 전단계로 데이터에 ‘이름’ 붙이는 과정 필수…수작업에 의존해 엄청난 시간 소요돼
[AI 따라잡기]AI 시대 각광받는 ‘데이터 라벨링 산업’…솔루션 시장 규모 10억 달러 육박
[전승우 LG경제연구원 연구원 ] 이제는 인공지능(AI)이 적용되지 않는 분야를 찾아보기 힘들 정도로 AI가 우리 일상에 빠르게 녹아들고 있다. AI의 저변 확대에도 불구하고 여전히 발전 가능성이 무궁무진하기 때문에 AI 역량을 확보하기 위한 기업들의 노력도 숨 가쁘게 이뤄지고 있다.


AI의 폭발적 인기를 가져온 기술은 바로 딥 러닝이다. 딥 러닝의 핵심 원리는 데이터 입력을 통해 알고리즘을 학습시키고 이를 이용해 다양한 입력이 주어졌을 때 가장 적합한 결과를 출력하는 것이다. 알고리즘의 성능을 강화하기 위해서는 무엇보다 풍부한 데이터 확보가 필수적이므로 데이터의 중요성은 날이 갈수록 강조되고 있다.


하지만 풍부한 데이터 확보만이 딥 러닝 성능 강화로 이어지지는 않는다. 딥 러닝 알고리즘에 데이터를 입력하기 위해서는 먼저 데이터에 이름을 붙이는 과정이 필요하다. 예컨대 고양이 사진에는 ‘고양이’라는 태그를 붙이고 강아지 사진에는 ‘강아지’라는 태그를 붙이는 식이다. 혹은 데이터가 여러 특징으로 분류될 수 있다면 이를 적절한 그룹으로 묶어 태그를 붙일 수도 있다. 이렇게 태그가 붙은 데이터를 입력해야 알고리즘이 비로소 특정 사물을 식별할 수 있는 능력을 학습할 수 있다.


데이터 라벨링이 신종 산업으로 부상
이렇게 데이터에 이름을 붙이는 것을 데이터 라벨링(data labeling)이라고 한다. 다양한 분야에 딥 러닝이 적용되면서 데이터 라벨링 수요 역시 폭발적으로 증가하고 있다. 게다가 딥 러닝 수준이 높아질수록 엄청나게 많은 데이터가 필요하기 때문에 데이터 라벨링 작업 역시 기하급수적으로 증가하게 된다.


또한 데이터 라벨링 수준도 높아지고 있다. 음성·영상·자연어 등 다양한 데이터에 대한 수요도 증가하고 있을 뿐만 아니라 라벨링의 유형도 더욱 세분화되고 있다. 예컨대 자율주행차 알고리즘 학습 이미지의 경우 각 이미지의 이름은 물론 색상과 형태 등 여러 특징을 설명하는 다양한 태그를 입력해야 한다.


빅데이터 시대에 접어들면서 데이터의 양뿐만 아니라 질적 우수성이 기업의 데이터 역량을 좌우할 것으로 보인다. 이런 차원에서 데이터 라벨링을 비롯한 데이터 가공의 중요성은 매우 커질 것으로 전망된다. 데이터 라벨링 수준이 데이터 역량을 결정하는 중요 요소로 간주되면서 데이터 라벨링에 대하 기업들의 관심도 높아지고 있다. 데이터 라벨링이 AI 적용의 어려움이라는 조사 결과도 발표되기도 했다.


이와 같이 데이터 라벨링의 중요성이 커지면서 데이터 라벨링이 신종 산업으로 부상하고 있다. 2023년 데이터 라벨링 솔루션 시장 규모는 약 10억 달러에 육박할 것이라는 전망도 나오고 있다.


딥 러닝이 인간의 반복적 노동을 자동화하는 것이 목표지만 대조적으로 오늘날의 데이터 라벨링 업무는 노동집약적으로 이뤄진다. 사람들이 일일이 데이터를 확인하고 태그를 붙이는 방식으로 이뤄진다. 따라서 비교적 작은 규모의 데이터라도 라벨링에 엄청난 시간이 소요될 수밖에 없다.


파이낸셜타임스에 따르면 자율주행차를 구동하는 딥 러닝 알고리즘이 도로 표지판을 학습하기 위해서는 적어도 수천 시간 이상의 운전 동영상이 필요하다고 한다. 하지만 1시간 동영상 데이터를 일일이 라벨링하기 위해서는 8시간이나 걸린다고 한다. 이에 따라 딥 러닝의 학습 시간 중 무려 80~90%가 데이터 라벨링 작업에 소요되는 것으로 알려진다.


딥 러닝을 전문적으로 다루는 정보기술(IT) 기업들은 자체적으로 데이터 라벨링을 수행하기도 하지만 한편으로는 이를 아웃소싱하는 곳도 많다. 최근에는 크라우드 소싱 형태로 불특정 다수 사람들의 지원을 받기도 한다. 아마존의 클라우드 서비스인 AWS는 아마존 메커니컬 터크(Amazon Mechanical Turk)라는 라벨링 작업을 위한 크라우드 소싱 플랫폼을 운영하고 있다.



데이터 라벨링 관련 기술 연구도 주목
데이터 라벨링의 아웃소싱을 담당하는 기업은 주로 중국·인도·아프리카 등 신흥국에 집중돼 있다. 예컨대 인도의 데이터 라벨링 전문 기업 아이메리트(iMerit)는 구글·페이스북·아마존 등 다수의 IT 기업을 고객으로 확보하고 있다. 약 2000명의 직원들은 자율주행을 비롯한 제조 공정, 의료, 제품 개발 등 다양한 분야에 사용되는 데이터에 태그를 붙이는 작업을 수행한다. 마찬가지로 사마소스(Samasource) 등 여러 기업들이 신흥국의 저렴한 노동력을 앞세워 데이터 라벨링 사업을 확장하고 있다.


한편 폭증하는 데이터 규모와 AI 적용이 여러 분야로 전방위 확대되는 상황을 고려할 때 인간의 노동력만으로 데이터 라벨링 작업을 수행하기 어렵다는 주장도 있다. 따라서 데이터 라벨링을 보다 용이하게 수행할 수 있도록 돕는 기술 개발이 주목받고 있다. 나아가 데이터 라벨링의 의존도를 낮출 수 있는 AI 기술 연구도 활발히 이뤄지고 있다.


대표적 기술이 바로 생성적 적대 신경망(GAN)이다. GAN은 두 개의 AI 시스템이 서로 경쟁하는 방식으로 알고리즘을 학습하는 기술이다.


두 시스템은 서로 이기기 위해 지속적으로 자가 발전함으로써 부족한 알고리즘 성능을 끌어올릴 수 있기 때문에 데이터 라벨링에 대한 의존도가 낮다. 현재 GAN은 이미지나 텍스트 생성 등 기존 딥 러닝이 적용하기 어려운 분야에 적용되고 있다.


한편으로 이전에 사용했던 알고리즘을 다른 상황에 적용하는 전이학습(transfer learning) 기술도 최근 각광받는 AI 기술이다. 새로운 환경에 적응하기 위해 다시 학습을 거치는 대신 유사한 환경에서 사용된 경험이 있는 알고리즘을 사용함으로써 학습에 필요한 데이터의 규모를 크게 줄이는 것이다. 아직까지는 전이학습 기술의 활용도는 낮지만 AI 알고리즘의 학습 비용이 기하급수적으로 커지는 상황을 감안하면 전이학습의 미래 잠재력은 무궁무진한 것으로 평가된다.


역사적으로 볼 때 신기술의 등장은 일상생활을 획기적으로 발전시키지만 동시에 기존에 고민하지 못했던 새로운 이슈도 던져준다. 기술로 만들어진 이슈를 해결하는 것은 결국 기술의 몫이다. 이런 관점에서 볼 때 데이터 라벨링의 문제를 새로운 기술로 해결하려는 기업들의 움직임도 더욱 빨라질 것으로 보인다.


[본 기사는 한경비즈니스 제 1293호(2020.09.07 ~ 2020.09.13) 기사입니다.]