[테크 트렌드]
4차 산업혁명의 ‘열쇠’ 빅데이터…숙련된 데이터 분석가 육성이 핵심
빅데이터로 본 ‘부산행’ 1000만 돌파의 비결
(사진) 영화 '부산행'의 한 장면.

[한경비즈니스=최재원 다음소프트 이사] 일상에 스며든 인터넷과 함께 데이터 역시 엄청난 속도로 증가하고 있다.

빅데이터로 분석해 본 ‘빅데이터’는 2011년 한 해 약 5000건 정도의 관심을 받았지만 2016년에는 18만 건이었다. 2011년에 비해 약 38배나 더 높은 관심을 받은 것이다.

특히 지난해 말 ‘4차 산업혁명’이란 키워드가 주목 받으며 그 핵심으로 언급되는 빅데이터에 대한 관심도 함께 높아졌다.

거대한 데이터의 풀에서 빅데이터를 다루는 방법이 계속해 회자될 것이기에 빅데이터에 대한 이해가 반드시 선행돼야 한다. 빅데이터는 무엇이고 그 분석은 어떻게 진행돼야 할까.

◆데이터는 ‘정제’돼야 의미를 가진다

데이터는 어떤 형태로든 시각적으로 구현될 수 있고 의미를 가진 모든 값들을 의미한다. 하지만 모든 데이터를 바로 활용할 수는 없고 날것의 데이터(raw data)는 활용 목적 및 절차에 따라 정제되는 과정이 필요하다.

데이터는 그 구조에 따라 크게 정형 데이터와 비정형 데이터로 나눌 수 있다. 정형 데이터는 정해진 형식에 따라 값이 입력된 데이터이며 그 형식을 참고해 즉각적으로 활용할 수 있다. 실험 및 연구를 위한 측정 데이터, 위치 데이터 그리고 각종 사용 데이터들이 그 예다.

반면 비정형 데이터는 형식이 정해져 있지 않고 텍스트·이미지·음악·영상 등 다양한 형태로 구현된 데이터를 말한다. 따라서 이들의 메타 정보와 정형 데이터와 다른 정제 과정이 필요하게 된다.

데이터와 빅데이터는 또 어떻게 다를까. 빅데이터를 정의할 때에는 ‘3V’를 빼놓을 수 없다. 빅데이터의 속성인 3V는 크키(Volume)·속도(Velocity)·다양성(Variety)을 나타낸다. 단어 그대로 빅데이터는 크기가 ‘커야 하며’, ‘빠르게’ 생성되고, 이를 처리하는 기술 역시 고도화돼 ‘빠르게’ 이뤄져야 한다.

또 정형 데이터와 비정형 데이터를 포함한 ‘다양한’ 형태를 갖춰야 한다. 일정 시간 동안 수집돼 이러한 특성을 갖는 데이터들을 바로 ‘빅데이터’라고 말한다.

이렇게 크고 다양한 빅데이터를 활용하기 위해서는 ‘데이터 마이닝’이 필요하다. 데이터 마이닝은 빅데이터 속에서 특정한 패턴을 찾는 방법론이다. 패턴을 찾기 위해서는 다양한 통계 기법을 사용하거나 데이터베이스 시스템, 기계 학습이나 인공지능이 활용된다.

데이터 마이닝이 발견한 패턴은 곧 우리에게 유용한 정보가 될 수 있다. 이를 통해 우리는 거대한 데이터를 쉽게 이해할 수 있고 새로운 미래 예측에도 도움을 받을 수 있다.

데이터 마이닝을 하는 방법은 이와 같다. 먼저 △업무 정의를 통해 데이터 마이닝의 목적을 정리해야 한다.

그다음 △데이터를 수집하고 이해한 뒤 △마이닝 방법에 맞게 데이터를 클렌징하고 정리한다. 이어 △가능한 한 다양한 마이닝 방법을 적용하는 모델링 과정을 거치고 △어떤 모델이 분석 목적에 가장 적합한지 평가한다.

최적화된 모델을 결정하기 전까지 모델링과 평가는 반복적으로 진행돼야 한다. 마지막으로 △결정된 모델과 데이터 마이닝 결과를 업무 관련 의사결정에 참고하는 단계를 거친다.

기존의 데이터 마이닝은 정형 데이터를 중심으로 이뤄져 왔다. 하지만 대표적 비정형 데이터인 텍스트 데이터를 분석할 수 있는 기술이 생기면서 데이터 마이닝의 범위가 확대됐다.

우리는 현재 지나가고 있는 시간보다 훨씬 긴 분량의 데이터가 생성되는 시대에 살고 있고 그중 비정형 데이터가 차지하는 비율이 계속해 높아지고 있다. 이 때문에 비정형 데이터를 마이닝하는 한 방법으로 텍스트 마이닝이 계속해 주목 받을 것으로 판단된다.
빅데이터로 본 ‘부산행’ 1000만 돌파의 비결
◆빅데이터의 합집합 ‘인사이트’

온라인 플랫폼인 소셜 미디어(social media)에서 사람들은 자발적으로 다양한 분야에 대한 이야기를 기록한다. 주말에 무엇을 했는지, 브랜드의 인기 상품 구매 후기 또는 요즘 사회에 대한 일침 등이다.

텍스트 마이닝을 활용하면 이 모든 목소리를 수집하고 공통된 목소리를 하나의 패턴으로 알아낼 수 있다. 이 패턴은 개개인의 목소리와 또 다른 정보로 기능하며 다음소프트에서는 이를 ‘인사이트(Insight)’라고 부른다.

다음소프트의 소셜 미디어 분석은 구체적인 제품이나 브랜드·시장을 넘어 사람들의 생활과 트렌드 그리고 이들이 생성되는 사회 전반에 대한 이해를 목적으로 한다.

인사이트를 도출하기 위한 텍스트 마이닝은 각종 정보의 출처로부터 문서를 수집하는 것으로 시작된다. 데이터베이스에 저장된 데이터들은 텍스트 마이닝 작업을 거치면서 분석 목적과 배치되는 스팸 문서는 자동 제외된다.

선별된 문서에 한해 형태소와 구문 및 키워드 분석을 포함하는 자연어 처리 과정을 실행하며 추출된 키워드 간 연관도를 계산해 의미 있는 관계를 갖는 연관어를 추출한다.

이어 추출된 연관어를 분석 목적에 맞게 의미 단위로 묶어 해석하거나 연관어별 구체적인 내용 분석을 통해 의미화하는 과정을 거쳐 인사이트를 찾아내게 된다.

예컨대 1000만 관객 영화의 공식을 인사이트를 통해 도출하면 흥행에 성공한 영화들에 대한 개별적인 담론을 종합적으로 분석해 사람들이 영화에 바라는 속성과 그 비중의 트렌드를 확인할 수 있다.

분석 대상 영화는 2015년까지 상영된 영화 중 1000만 관객 이상을 동원한 ‘국제시장’, ‘암살’, ‘베테랑’으로 정했다.

블로그와 트위터를 대상으로 영화에 대한 관심이 시작되고 지속되는 영화 개봉 8일 전, 개봉 후 90일까지의 문서를 수집했다. 자연어 처리까지의 텍스트 마이닝을 실행한 후 각각의 영화를 구별할 수 있는 키워드를 구성해 분석을 진행했다.

그다음 영화별로 관계가 깊은 연관어를 추출하고 이를 크게 감독(연출)·배우·스토리로 묶어 해석했다. 이 세 가지 요소는 영화를 구성하는 데 빠져서는 안 될 요소다.

하지만 빅데이터 분석 결과 ‘국제시장’, ‘암살’, ‘베테랑’에서는 세 가지 요소 모두 배우(1)·감독(2)·스토리(1)의 비율로 나타났다.

이렇게 도출된 1000만 영화의 공식으로 지난해 개봉작을 분석해 본 결과 배우 : 감독 : 스토리가 1 : 1 : 2에 가까운 비율이 나타난 ‘밀정’은 관객 수 1000만 관객 명을 넘지 못했다.

반면 공식에 가까운 반응이 나타난 ‘부산행’은 작년 한 해 최고 관객을 기록해 1000만 영화의 공식이 곧 황금비율임을 입증해 냈다.

앞으로는 이 황금비율을 개봉 예정인 영화에 적용해 영화 흥행 여부를 예측하는 데 활용할 수 있을 것이다.
빅데이터로 본 ‘부산행’ 1000만 돌파의 비결
◆결국 ‘4차 산업혁명’도 인간이 중요

이렇게 소셜 미디어 빅데이터에 텍스트 마이닝과 데이터 분석가의 역량이 더해질 때 우리는 키워드들이 집합적으로 표현하는 트렌드를 이해할 수 있게 된다.

비정형 빅데이터 분석은 데이터를 정확하고 빠르게 다루는 다양한 기술이 필요한 것뿐만 아니라 비정형 데이터의 특성에 대한 이해가 요구된다. 그리고 이 특성을 잘 반영할 수 있는 분석 목적을 정의하는 것이 인사이트를 도출하는 데 중요하게 작용한다.

다시 말하면 빅데이터를 다루며 패턴을 찾아내는 인간의 힘이 중요하다는 것이다. 기술의 학습과 적합한 분석의 틀 구축, 데이터의 의미화 과정에서 우리는 그간의 학습 능력과 직관·창의력을 잘 조합할 수 있어야 한다.

새로운 한 해의 시작과 4차 산업혁명에 대한 기대 그리고 빅데이터에 대한 이해와 인간만의 능력을 갖춘 숙련된 데이터 분석가에 대한 기대를 함께 걸어본다.