[테크놀로지]
- 전체의 약 80~90% 차지하는 용도 불명 데이터…사물인터넷과 클라우드로 실시간 수집

빅데이터 시대의 ‘핵심 자원’ 될 다크 데이터
[전승우 LG경제연구원 책임연구원] 데이터는 21세기의 석유라는 말처럼 오늘날 비즈니스에서 가치 창출의 원천으로 강조되고 있다. 정보기술(IT)과 거리가 멀었던 기업들도 데이터를 활용해 주력 사업의 경쟁력을 강화하거나 새로운 비즈니스 기회를 찾고 있다. 각종 IT 기기와 인터넷을 통해 산출되는 데이터의 규모가 폭발적으로 증가하면서 데이터 수집과 분석 역량이 뛰어난 기업이 미래 산업을 주도하게 될 것이라는 전망이 글로벌 경제의 큰 화두로 부상했다.


데이터가 가치를 창출하기 위해서는 그 무엇보다 분석 가능성이라는 전제가 붙어야 한다. 즉 일정한 형식에 맞춰 정확한 수치와 내용으로 정리된 정형 데이터가 분석 대상이 될 수 있다. 아무리 엄청난 규모의 데이터라도 이런 요건에 해당하지 않는다면 분석하기가 어렵기 때문에 그 가치가 현저히 낮을 수밖에 없다.


정형 데이터와 달리 다양한 활동으로 산출되지만 적극적으로 활용되지 않는 데이터를 ‘다크 데이터(dark data)’라고 한다. 다크 데이터는 이름 그대로 일단 저장되기는 하지만 어떻게 사용할지 목적이 명확하지 않다. 예컨대 검색 로그 기록, 더 이상 사용되지 않는 문서, 동일 이미지가 중복 촬영된 사진이나 동영상, 데이터 유실에 대비한 백업 데이터 등 다크 데이터의 유형은 무수히 많다.


기업뿐만 아니라 일상에서도 다크 데이터는 풍부하게 생산되고 있다. 대부분 사람들이 가지고 있는 스마트폰이나 PC 안에도 거의 사용되지 않는 수많은 다크 데이터가 저장돼 있다. IT 기기를 통해 인터넷·게임·카메라 등 많은 기능을 사용하면서 데이터 생산량도 빠르게 늘고 있지만 정작 대부분의 데이터는 생성 후 거의 사용되지 않고 저장 공간에 남아 있다.


다크 데이터의 규모를 정확히 측정하기는 불가능하다. 정도의 차이는 있지만 다수의 리서치 기관들은 다크 데이터가 전체 데이터의 약 80~90%를 차지할 것이라고 추산한다. 대부분의 기업들은 당장 사용할 가능성은 매우 낮지만 미래에 활용될 가능성에 대비하기 위해 상당 규모의 다크 데이터를 축적하고 있다. 심지어 다크 데이터가 지속적으로 수집되고 있는 사실조차 모르는 곳도 많다.


점점 중요성 커지는 다크 데이터
4차 산업혁명의 도래 등 IT의 역할이 커지면서 데이터 활용 능력이 비즈니스의 차별화 역량으로 부상했지만 정작 데이터의 대부분을 차지하는 다크 데이터를 다루기 위한 노력은 지금까지 거의 이뤄지지 않았다. 언제 어떤 다크 데이터가 축적되고 있는지 파악하기도 어려울 뿐만 아니라 다크 데이터의 가치에 대한 관심도 매우 낮았다. 실제로 리서치 기업 IDC는 다크 데이터의 90%가 한 번도 분석된 적이 없다는 조사 결과를 발표하기도 했다.


하지만 최근에는 다크 데이터의 중요성이 날로 커지고 있다. 정형 데이터는 다루기 용이하고 활용 목적에 맞는 체계적인 분석 결과를 제공할 수 있지만 제한적 정보만 담을 수 있기 때문에 새로운 가치 발견이 어려울 수 있다. 반면 다크 데이터는 분석하기가 쉽지 않지만 정형 데이터보다 훨씬 풍부한 정보를 담고 있기 때문에 지금까지 발견하기 못했던 사실 등 귀중한 시사점을 얻을 수 있을 것으로 예상된다.


다크 데이터는 데이터 수집 기술이 발전하면서 크게 주목받고 있다. 과거에는 다크 데이터가 산발적으로 흩어져 저장되기 때문에 이를 수집할 수 있는 방법이 없었다. 하지만 현재는 사물인터넷(IoT)과 클라우드 컴퓨팅 인프라를 통해 각지에서 생산되는 데이터를 실시간으로 수집, 축적할 수 있으므로 다크 데이터를 분석할 수 있는 여건을 갖출 수 있게 됐다.


다크 데이터 분석 기술도 빠르게 성장했다. 데이터 가공·처리 기술은 물론 딥러닝 등 인공지능(AI) 기술이 발전하면서 다크 데이터를 AI로 분석하려는 시도가 늘고 있다. AI를 적용해 연관성이 적어 보이는 데이터의 조합으로도 시사점을 얻을 수 있다는 사례도 다수 등장하고 있다.


IT업계를 중심으로 다크 데이터의 중요성이 커지면서 리서치 기관들이 다크 데이터 활용 방안을 중점 연구하고 있다. 예컨대 컨설팅 기업 액센츄어는 개인 의료비 거래 내역, 소셜 미디어 활동 등 다양한 유형의 다크 데이터를 개인 건강관리 서비스에 활용할 수 있다면 2030년까지 2000억 달러(약 239조원) 이상의 부가 가치가 창출될 수 있다고 주장했다. 금융 투자에서도 기존의 재무 정보는 물론 뉴스 기사나 위성사진, 소셜 미디어 등 각종 다크 데이터를 활용해 더 큰 수익률을 얻을 수 있을 것으로 예상된다.


게다가 다크 데이터를 통해 정형 데이터 분석 결과의 정확성과 활용도도 강화할 수 있다. 예컨대 고객의 매장 방문 사실을 기록하는 정형 데이터에 더해 고객의 방문 시간·동선·시선 등 부가 정보를 가지고 있는 다크 데이터를 조합해 분석한다면 개별 고객의 취향과 선호도 등 기존에 발견하지 못했던 숨겨진 시사점을 발굴하고 고객 맞춤형 전략을 수립할 수 있다.
빅데이터 시대의 ‘핵심 자원’ 될 다크 데이터
다크 데이터에 대한 투자 늘리는 기업들
다크 데이터에 대한 기업들의 투자도 늘고 있다. 과거에는 다크 데이터 보관 자체가 작지 않은 부담이었지만 최근에는 다크 데이터를 신제품 출시, 판매 전략 수립, 시스템 점검 등 기업 활동의 귀중한 자산으로 인식되고 있다. 다크 데이터 활용이 미래 빅데이터 경쟁에서 승리하기 위한 핵심 전략으로 부상할 것이라는 주장도 나오고 있다.


특히 IT업계 선도 기업들의 다크 데이터 스타트업 인수가 큰 관심을 끌고 있다. 애플은 ‘래티스 데이터(Lattice Data)’라는 다크 데이터 스타트업을 인수했다. 래티스 데이터는 텍스트와 이미지 등 여러 유형의 다크 데이터를 분석할 수 있는 정형 데이터로 바꿀 수 있는 기술을 보유한 기업이다. 애플은 래티스 데이터의 기술을 활용해 지리와 의료 정보 등의 다크 데이터 연구를 강화하는 한편 다크 데이터 기술을 이용해 자사의 음성 인식 서비스 ‘시리’의 성능 향상을 추진할 것으로 예상된다.


아마존 역시 다크 데이터 스타트업 ‘하비스트’를 인수했다. 하비스트는 특정 서비스를 사용하는 사람들의 다크 데이터를 분석해 해킹 등 사이버 보안 위험을 예방하는 기술을 보유하고 있다. 아마존은 자사 시스템의 보안 수준을 강화하기 위해 하비스트의 다크 데이터 기술을 적극 활용할 것으로 보인다.


다크 데이터의 가치를 재조명하는 움직임이 활발하지만 적극적으로 활용하기 위해서는 갈 길이 멀다는 의견도 적지 않다. 다크 데이터는 규모는 물론 유형도 매우 다양하지만 다크 데이터 분석 기술이 일부 영역만 다룰 수 있기 때문이다. 따라서 다크 데이터의 폭발적 인기와 달리 상당수의 다크 데이터는 여전히 활용하기 어려운 상태로 남아 있을 가능성이 높다. 게다가 다크 데이터를 분석하기 위해 상당한 투자가 필요한 반면 분석 결과가 충분한 가치를 제공하지 못할 것이라는 우려도 있다.


게다가 다크 데이터 분석 과정에서 데이터 내부에 포함된 사생활 정보가 유출될 위험도 고려해야 한다. 특정 다크 데이터 자체만으로는 보안 사고의 위험이 낮다고 할지라도 여러 유형의 다크 데이터를 통합 분석하는 과정에서 예기치 않게 개인의 사생활 정보가 고스란히 드러날 수 있기 때문이다. 따라서 향후에는 다크 데이터 활용 방안은 물론 다크 데이터로 발생할 수 있는 정보 보안 리스크를 예방하기 위해 더 많은 관심을 기울여야 한다.




[본 기사는 한경비즈니스 제 1285호(2020.07.11 ~ 2020.07.17) 기사입니다.]