[빅데이터]
'일반화의 오류'에 취약, 비판적 사고와 논리적 접근해야
‘공포’ 확산의 통로 된 소셜 미디어
[한경비즈니스=최재원 다음소프트 이사] “하나를 보면 열을 안다”는 말이 있다. 사실 이 말처럼 위험한 것도 없다.

성급하게 제한된 증거를 가지고 결론을 도출하는 ‘일반화의 오류’를 범할 수 있다는 얘기다. 인간이 일반화의 오류에 빠지는 이유는 상관성보다 인과성에 집착하기 때문이다.

소셜 미디어의 발달, 정보 양 증대 등의 이유로 이러한 일반화의 오류가 더욱 빈번하게 발생하고 있다. 빅데이터는 표본조사로 가공된 대표적 결과만이 아니라 전체의 미가공 데이터를 모두 다루기 때문에 일반화 과정에서 놓치게 되는 정보들을 파악할 수 있다.

◆일반화의 오류가 만드는 ‘포비아 현상’

데이터 분석에서 항상 등장하는 인과성과 상관성을 살펴보면 일반적으로 상관관계는 변화하는 변수 사이의 상관성을 파악하는 것이다. 물론 수백, 수천 개의 변수에서 상관관계를 찾아내는 것은 쉬운 일이 아니다.

하지만 인과관계를 파악하기 위해서는 더 많은 실험과 검증을 해봐야 하고 때로는 원인을 파악할 수 없는 것도 아주 많다. 그래서 흔히 상관관계를 알아내면 미래를 예측할 수 있고 인과관계까지 밝혀내면 미래를 바꿀 수 있다고 말한다.

보통 통계분석으로는 상관성을, 빅데이터로는 인과성을 뽑아낸다고 할 수 있다. 전통적인 통계분석은 전체를 추론하기 위해 샘플을 가지고 모수(매개변수)를 추정하는 기법으로 많이 활용했다.

빅데이터 분석은 이미 모수 전체를 가지고 분석을 시작한다는 점에서 이와 조금 다르다. 기존 모수 안에 숨겨진 패턴, 보이지 않았던 패턴과 규칙을 찾는 것이 관건이 된다는 말이다.

실제 2015년 메르스(중동호흡기증후군) 사태 때 나타난 사망률은 메르스에 취약한 사람들에게 적용되는 사망률이다. 외부 질병에 취약한 노인층이나 호흡기 질환이 있는 사람들이 주 사망자가 된 것이다.

병원 안에서 쉽게 확산된 이유도 이와 같다. 관련 질병에 취약한 사람과 정상적인 사람들과의 상관관계와 인과관계를 보지 않은 평균 법칙에 따른 일반화의 오류가 발생한 것이다.

‘포비아(공포증)’는 공포가 불러일으킨 일반화 오류의 대표적인 사례다. 포비아는 객관적으로 볼 때 위험하지도 불안하지도 않은 상황이나 대상을 필사적으로 피하고자 하는 증상을 가리킨다.

특정 사건이라는 부분적인 요소로 전체를 모두 판단하게 되는 것인데 2017년 한 해 동안 특정 단어와 포비아가 합쳐진 ‘○○포비아’라는 단어가 유행처럼 돌았다.

첫째 대표적 포비아로는 푸드 포비아를 들 수 있다. 식탁에 오르는 음식을 모두 믿을 수 없어 섭취에 대한 두려움과 걱정이 생기는 것을 말한다.

작년 8월 벌어진 ‘살충제 계란’은 먹거리 포비아에 휩싸여 있는 국민들을 또 한차례 두려움에 떨게 만들었다. 빅데이터상에서도 이를 확인할 수 있는데, 지난해 8월 먹거리 포비아 관련 상위 식품 연관어로 ‘계란’이 1만9588건으로 압도적인 언급량을 기록하며 1위를 차지했다.

이어 상위 식품 키워드로 ‘닭’ 2009건, ‘고기’ 800건의 키워드가 나타났다. ‘닭’은 조류인플루엔자(AI) 파동과 살충제 계란 문제로 순위권에 오른 것으로 분석된다.

당시 정부는 벌레의 중추신경계를 파괴해 살충 작용을 하는 살충제인 ‘피프로닐’에 오염된 계란을 성인이 하루 126개까지 먹어도 위험하지 않다고 발표했지만 국민들의 계란에 대한 막연한 걱정과 원성은 계속 이어졌다.
‘공포’ 확산의 통로 된 소셜 미디어
◆소셜 미디어 발달의 그림자

빅데이터를 통해 ‘살충제’와 관련한 감정 비율을 분석한 결과 2017년 7월까지는 ‘살충제’에 대해 ‘좋다’, ‘효과적이다’, ‘필요하다’와 같은 긍정 감성어가 상위권에 자리하며 부정 감성어보다 높은 비율을 차지했다.

하지만 살충제 계란 파동이 일어난 같은 해 8월 이후 ‘살충제’ 관련 데이터를 살펴보면 ‘논란’, ‘피해’, ‘불안하다’ 등 부정 감성어의 비율이 크게 상승한 것을 볼 수 있다.

사람들이 일반화의 오류에 취약해져 이러한 오류를 더 많이 범하게 된 원인에는 소셜 미디어의 발달과 정보 양의 증대를 들 수 있다.

우선 일반화의 오류 증가에서 소셜 미디어의 역할은 개개인의 의견 표출의 장을 만들었다는 것이다. 의견 표출의 장은 긍정적인 역할을 했지만 일반화의 오류를 가진 이러한 의견들이 확산성을 갖게 됐다.

실제로 소셜 미디어에서는 진실 여부를 확인할 수 없는 개인의 의견과 경험담들이 난무해 파문 확산에 매우 취약한 구조를 가지고 있다.

특히 일부 언론과 관계 기관이 통계와 사실을 부풀려 혐오감과 공포심을 비현실적인 수준으로 끌어올리곤 하는데, 이로 인해 조장되는 공포가 확대재생산되는 또 하나의 경로가 소셜 미디어와 인터넷 커뮤니티다.

빅데이터상에서 소셜 미디어 관련 연관어를 살펴본 결과 지난 3년간 1~3위에 나타난 연관어는 ‘화제’, ‘논란’, ‘혐의’로 동일했다.

이를 통해 사람들이 ‘화제’, ‘논란’, ‘혐의’와 같은 사회적 이슈에 대해 소셜 네트워크 서비스(SNS) 공간을 활용해 그들의 목소리를 많이 표출하고 있다는 것을 알 수 있다.

소셜 미디어의 영향으로 개인이 또 하나의 미디어로 작용하게 돼 공신력 없는 하나의 의견과 경험담이 대중의 판단에 큰 영향을 끼치게 된 것이다.

또 정보의 양이 방대해지면서 보고 싶은 정보만 보게 되는 경향성이 더욱 강화되고 있다는 점 역시 사람들이 일반화의 오류에 취약해지는 이유 중 하나로 꼽힌다.
‘공포’ 확산의 통로 된 소셜 미디어
◆‘생존자 편향의 오류’ 피하려면

온라인은 정보의 바다다. 정확하지 않은 혹은 검증되지 않은 정보 역시 온라인에 많이 존재하고 있다. 하지만 방대한 정보 속에서 불완전한 정보를 걸러내는 것은 쉬운 일이 아니다.

이 때문에 사람들은 자신이 봤거나 보고 싶은 정보만 지속적으로 추구하게 되는 경향이 생기고 있다. 이러한 경향이 정보의 전체적인 그림을 보기 어렵게 해 일반화의 오류를 범하기 쉽게 만들고 있다.

편견이 확고하게 고정되면 그 편견을 타파할 수 있는 행위를 봐도 눈감아 버리는 경향이 생긴다. 일반화 역시 편견이 바탕에 깔려 있기 때문에 섣부른 일반화는 잘못된 결론을 도출시킬 뿐만 아니라 사람을 편향적인 성향으로 몰아갈 위험이 있다.

빅데이터로 분석해 보면 이러한 오류를 범하지 않기 위한 방법으로 ‘비판적 사고’, ‘수용적 자세’, ‘논리적 접근’ 등의 노력이 필요하다. 중립적으로 상대방의 주장을 차별하지 않고 섣부른 일반화를 자제해야 하며 상대 가정의 논리를 이해해 보려는 자세가 중요하다.

또 어떠한 근거로 논리가 전개되는지에 대한 고찰도 필요한 것으로 보인다. 이 밖에 새로운 주장이 제기됐을 때 일반화 타당성을 검증해 본다거나 일반화의 오류가 발생했을 때 그에 따른 위험 발생 가능성이 얼마나 되는지 잘 따져보는 노력이 요구된다.

제2차 세계대전 당시 미군은 적군의 총탄을 맞고 귀환한 전투기의 총탄 자국을 분석해 주날개와 꼬리날개에 집중된 총탄 흔적을 보고 이 부분을 보강하면 격추를 줄일 수 있다는 결론에 도달했다.

그런데 이 연구를 총괄하는 수학자 아브라함 발드는 마지막에 상반되는 분석 결과를 제시했다. 비행기 각 부분이 적군의 총탄에 맞을 확률은 같거나 비슷한데 엔진과 조종석에 적군의 총탄 흔적이 없다는 것은 그 부분에 손상을 입으면 살아서 귀환한 비행기가 없다는 것을 의미한다는 것이어서 오히려 그 부분을 더 보강해야 한다는 주장이었다.

데이터 분석 과정에서 많이 범하는 오류 중 하나가 바로 이 ‘생존자 편향의 오류(survivorship bias)’다. 눈에 보이는 편향된 데이터만으로 상황을 판단했을 때 일반화의 오류를 범하게 된다. 눈에 보이지 않는다고 데이터가 없는 것은 아니다. 더 넓고 신중하게 상황을 보는 혜안을 가지면 미래를 바꿀 수 있다.