‘GIGO’를 넘어라…가치 있는 데이터를 선별적으로 수집·가공해야
美 대선에서 드러난 ‘빅데이터’의 오류
(사진) 미국 대선에서 승리를 거둔 도널드 트럼프 대통령 당선인이 두 주먹을 불끈 쥐고 있다. /연합뉴스

[전승우 LG경제연구원 책임연구원] 지난 11월 8일 치러진 제45대 미국 대통령 선거는 미국 대선 역사상 가장 큰 이변 중 하나로 기록될 전망이다.

막말 파문과 스캔들에 휘말리면서 선거운동 기간 내내 자질 논란에 휩싸였던 공화당의 도널드 트럼프 후보가 막판 대역전극을 이끌어 냈기 때문이다.

수많은 언론과 여론조사 기관들조차 트럼프 후보의 승리를 예측한 곳은 드물었다. 이에 따라 미국 사회는 물론 전 세계 각국 정부와 기업, 금융시장 등은 트럼프 후보의 당선에 크게 당황하고 대책 마련에 분주했다.

◆ 美 대선에서 드러난 빅데이터 기술의 한계

무엇보다 당황한 곳은 대부분의 언론 및 선거 조사 기관들이다. 이들은 수많은 유권자 설문 조사 및 인터넷과 소셜 네트워크 등 각종 여론 동향 조사를 통해 힐러리 클린턴 후보가 승리할 것이라고 확신했다.

뉴욕타임스는 선거일 전날 클린턴 후보의 당선 확률이 85%라고 발표했고 CNN도 91%의 확률로 클린턴 후보가 이길 것이라고 추정했다. 지난 대선 결과를 맞혀 스타덤에 오른 데이터 분석 전문가 네이트 실버의 선거 예측 웹사이트 ‘파이브서티에이트’도 클린턴 후보의 승리 확률이 71%라고 주장했다.

하지만 트럼프 후보의 승리로 이들 기관의 명성에 금이 갔다. 이처럼 여론조사를 기반으로 대선 결과를 예측했던 기관들이 하나같이 예측에 실패하자 여론조사의 신뢰성 문제가 다시 수면 위로 부상했다.

물론 과거에도 잘못된 선거 결과 예상 발표로 비판에 직면한 사례는 비일비재하다. 하지만 최근 선거에서는 정확하게 예측하기 위해 많은 인력을 투입하고 첨단 정보기술(IT)을 대거 도입하고 있다.

또한 트럼프 후보가 구설에 휩싸이면서 고전하는 모습이 역력하자 일부 언론은 선거일 한참 전부터 클린턴 후보의 승리를 강하게 확신했다. 결국 뉴욕타임스와 워싱턴포스트 등은 선거가 끝난 후 미국 사회의 목소리를 충실히 인지하지 못했다는 반성문을 발표하기에 이르렀다.

이를 계기로 일각에서는 IT업계의 화두로 떠오르고 있는 빅데이터 기술에 대한 의문이 제기되고 있다. 엄청난 데이터를 빠르게 처리할 수 있는 빅데이터 기술은 불확실한 미래를 조망할 수 있는 핵심 수단으로 각광받고 있다.

트럼프와 클린턴 등 두 대선 후보는 물론 많은 기관들 역시 선거 판세 전망을 위해 빅데이터 기술에 천문학적 비용을 투자한 것으로 알려졌다. 이런 차원에서 이번 미국 대선은 빅데이터 기술의 가치와 한계에 대한 활발한 논의를 촉발하는 계기가 됐다.

구글 검색을 통해 본 미국 대선 후보자들의 검색 횟수
美 대선에서 드러난 ‘빅데이터’의 오류
(구글 트렌드에 따르면 미국 대선이 치러지기 전 3개월 동안 ‘도널드 트럼프’ 검색 횟수는 평균적으로 ‘힐러리 클린턴’ 검색 횟수보다 많았다.)


◆ 정확한 데이터 확보가 분석의 질을 좌우

여러 전문가들은 빅데이터 기술을 통해 복잡한 현상의 이해는 물론 미래의 발생 가능한 사건까지 예상할 수 있을 것이라고 주장한다.

IT 매거진 와이어드 편집장 출신 기업가 크리스 앤더슨은 무수한 데이터 간 연관성을 분석할 수 있다면 주어진 이론과 공식 없이도 새로운 사실을 발견하고 문제를 해결할 수 있다고 설명했다.

거대한 데이터를 통계적으로 처리하고 이를 기반으로 의사 결정을 수행하는 것은 인간의 즉흥적 판단으로 야기할 수 있는 실패의 위험을 낮출 수 있다. 현재 여러 국가의 정부와 글로벌 기업들은 합리적인 전략 및 정책 수립을 위해 빅데이터 기술을 사용해 평가하고 있다.

최근 빅데이터 기술이 부상하게 된 주요 요인은 PC·인터넷·모바일을 중심으로 데이터가 폭발적으로 증가했기 때문이다. 특히 포털 사이트 검색과 댓글, 소셜 네트워크, 개인 제작 멀티미디어(UCC) 등 이전에 활용되지 않았던 데이터를 중심으로 빅데이터 기술이 활발하게 적용되고 있다.

빅데이터의 잠재 가치에 새롭게 주목한 많은 기관들은 자체적인 데이터 모니터링 및 분석 기술을 강화하고 시시각각 변하는 정보 및 트렌드를 습득하고 있다.

한편 풍부한 데이터의 수집 자체만으로는 반드시 성공적인 결론 도출을 보장하지 않는다는 반론도 있다. 데이터는 본질적으로 출처 및 전달 경로, 수용 목적에 따라 서로 다른 의미와 가치를 지니고 있다.

또한 대부분의 데이터는 객관적 사실과 정보보다 주관적 성향과 판단을 담고 있는 것이 많다. 그러므로 이와 같은 데이터를 통합적으로 분석하더라도 의미 있는 결과를 얻기가 쉽지 않다. 아무리 공정성을 추구한다고 하더라도 데이터 획득 및 해석의 과정에서 주관적 판단을 완전히 회피하기도 어렵다.

트럼프 후보의 당선을 오판한 가장 큰 원인도 바로 여론의 흐름을 정확히 읽을 수 있는 데이터를 충분히 확보, 분석하지 못한 것이다. 대부분의 언론과 선거 조사 기관들은 접근하기 쉬운 유권자를 대상으로 선호도를 조사했기 때문에 일부 편향된 시각이 전체 여론을 대변하는 것처럼 오인됐을 가능성이 높다.

게다가 이번 선거에서는 유독 막판까지 투표할 후보자를 결정하지 못한 사람들이 많았기 때문에 제한적인 선호도 데이터 해석만으로는 여론 동향을 파악하기 어려웠다는 지적도 있다.

설문 조사에 응한 사람들의 상당수가 자신들의 속마음을 제대로 표현하지 않았다는 주장도 있다. 트럼프 후보를 지지하지만 부정적인 주변 시선을 의식해 여론조사에 솔직하게 응답하지 않은 이들이 예상보다 훨씬 많았다는 것이다.

샤이 트럼프(Shy Trump)’라고 불리는 이런 지지자들은 선거 막판까지 명확한 의사를 드러내지 않았기 때문에 언론들은 클린턴 후보를 지지하는 사람들이 더욱 많다고 판단했다. 실제로 유권자의 응답에 의존하는 기존 여론조사와 다른 방법을 적용해 트럼프 후보의 승리를 미리 알았다는 주장도 있다.

인도의 인공지능 기술 스타트업 ‘제닉 AI(Genic AI)’가 만든 선거 예측 프로그램 ‘모그 IA(Mog IA)’는 페이스북·트위터 등 소셜 네트워크 서비스(SNS)에서 2000만 개의 데이터를 추출하고 이를 자체 알고리즘으로 분석해 트럼프 후보의 승리를 맞혔다고 한다.

또한 구글 검색을 기반으로 사회 트렌드를 보여주는 ‘구글 트렌드’ 역시 지난 1년간 클린턴 후보보다 트럼프 후보를 검색한 횟수가 더욱 많았기 때문에 트럼프 후보가 대통령이 될 것으로 추정할 수 있었다고 설명한다.

향후 빅데이터 기술은 일상 전반으로 더욱 확산될 것으로 보인다. 정치·경제·스포츠·기후 등 여러 분야에 걸쳐 빅데이터 기술이 폭넓게 활용되고 있다. 또한 각종 학문의 난제를 풀고 복잡하게 얽혀 있는 사회 현안의 개선에도 큰 역할을 담당하고 있다.

게다가 사물인터넷은 물론 머신러닝 등 인공지능까지 더해지면서 더욱 정교한 차원의 빅데이터 시스템도 주목을 받게 될 것으로 전망된다.

구글 검색을 통해 본 미국 대선 후보자들의 검색 횟수
美 대선에서 드러난 ‘빅데이터’의 오류
(구글 트렌드에 따르면 미국 대선이 치러지기 전 3개월 동안 ‘트럼프에게 투표하라(Vote Trump)’ 검색 횟수가 ‘클린턴에게 투표하라(Vote Clinton)’를 항상 압도했다.)


◆ 충실한 빅데이터 활용 전략 수립 필요

빅데이터 기술이 고도화하면서 풍부한 데이터 획득의 중요성 또한 더욱 강조될 것으로 판단된다. 하지만 축적된 데이터의 양이 빅데이터 가치 창출의 필수 요건은 아니다. 또한 데이터 수집 범위의 확대가 의사 결정이나 실제 결과 예측 수준과 그대로 비례하는 것도 아니다.

유수의 글로벌 금융회사들은 첨단 IT 시스템과 금융 데이터 수집에 매년 천문학적인 금액을 투자했지만 블랙 먼데이와 서브프라임 모기지(비우량 주택 담보대출) 등 주기적으로 반복되는 금융 위기를 감지하지 못했다.

IT 산업에서는 불필요한 데이터를 입력하면 출력 결과 역시 불필요하다는 ‘GIGO(Garbage In, Garbage Out)’라는 격언이 있다. 데이터 분석을 통한 성과 도출의 수준은 적절한 데이터의 수집과 검증에 의해 좌우된다는 뜻이다.

데이터 축적에 앞서 필요한 데이터의 특징 및 범위에 대한 충분한 검토와 고민이 부족하다면 방대한 양의 데이터와 이를 처리할 수 있는 빅데이터 기술의 가치도 반감될 수밖에 없다.

빅데이터 기술을 효과적으로 사용하기 위해서는 먼저 빅데이터 활용 전략부터 차근차근 고려해야 한다. 해당 분야에 대한 철저한 이해를 바탕으로 데이터 분석 목적과 활용 방안을 정의하고 이를 통해 필요한 데이터를 수집하고 도출 결과의 활용 방안 등 구체적인 계획을 우선적으로 수립해야 한다.

특히 광범위한 데이터 축적보다 구체적인 목표 아래 가치 있는 데이터를 선별적으로 수집하고 가공할 수 있는 능력이 빅데이터 시대의 핵심 역량으로 더욱 강조될 것으로 보인다.