데이터, ‘미래의 석유’로 불리는 까닭은
데이터의 존재감과 중요성이 커지자, 다양한 직업이 탄생했다. 데이터 과학자, 데이터 분석가뿐 아니라 데이터 랭글러(data wrangler), 데이터 해석가(data interpreter), 데이터 정제가(data whisperer)까지 등장했다. 데이터 분석에 대한 기본 상식을 소개한다.

“데이터 분석가를 채용한 지 1년이 넘었는데, 일을 한 게 없어요. 뭐를 요청하면 다 할 수 없는 것이라고만 하고….”
오랜만에 만난 한 중소기업 대표가 한숨을 내쉬었다. 창업 12년 만에 매출 500억 원을 이룬 창업가였다. 지난해 상품개발자들과 마케터들이 시장 데이터 분석에 필요하다고 해서 그는 데이터 분석가 1명을 채용했다. 상품 개발과 관련한 실무 경력은 없었지만 국가공인 데이터 분석가 자격증 소유자였다. 하지만 상품개발자들이 뽑아달라는 데이터는 “뽑을 수가 없다”고 했고, “상품 개발에 도움 될 만한 데이터를 뽑아달라”고 하면 그게 뭔지 몰라 헤맸다.

“데이터를 분석하려면 데이터 분석가 자격증만 있으면 되는 줄 알았죠. 이렇게 되면, 그 친구한테 일을 시킬 사람을 더 뽑아야 하는 건가요? 신종 코로나바이러스 감염증(코로나19)으로 매출도 줄어든 판에 답답하네요.”

데이터는 ‘미래의 석유’, ‘미래의 자본’이라고 불린다. 인공지능(AI), 사물인터넷(IoT), 로봇기술, 드론, 자율주행자동차가 이끌고 있는 4차 산업혁명의 동력으로 꼽히기 때문이다. 석유와는 다른 점이 있다. 유전을 찾아 시추해야 하는 석유와 달리, 데이터는 우리가 손을 뻗으면 닿을 만한 곳에 있다. 인터넷만 접속해도 거의 무한한 데이터의 바다가 펼쳐진다. 비슷한 점도 있다. 석유처럼 데이터도 ‘질’이 좋아야 쓸 수 있다. 제대로 쓰려면 ‘정제’해야 한다. ‘잘 쌓으면’ 돈이 된다. 그 과정에 인력과 기술, 자금이 투자돼야 한다.

데이터의 존재감과 중요성이 커지자 다양한 직업이 탄생했다. 데이터 과학자, 데이터 분석가뿐 아니라 데이터 랭글러, 데이터 해석가, 데이터 정제가까지 등장했다. 롯데그룹, 하나금융 등 대기업들은 데이터최고책임자(Chief Data Officer, CDO)를 뽑았다. 우리 정부는 ‘4차산업혁명위원회’에 CDO 즉, 데이터 기반 행정책임관을 뒀다.

다 비슷한 일을 하는 것처럼 보이지만, 당연히 다르다. 데이터 과학자는 전통적인 과학자와는 좀 다르다. 사업과 데이터 모두를 아는 사람이다. 다양한 종류의 데이터로부터 사업에 대한 통찰을 이끌어낼 수 있는 능력이 필요하다. 또 데이터로부터 문제를 규명하고 솔루션을 찾아낼 수 있어야 한다.

데이터 분석가한테는 데이터 언어 활용 능력과 함께 소통 능력, 협업 능력이 필요하다. 다른 분야 실무자와 소통을 잘하고 업무를 잘 추진해야 성과를 낼 수 있기 때문이다. 그래서 복잡하지만 중요한 사안을 쉽게 파악할 수 있도록 데이터 시각화 등 프레젠테이션 능력이 좋아야 한다. 사실, 이게 어려운 부분이다. 뭐가 중요한 사안인지는 사업을 잘 이해해야 알 수 있기 때문이다. 때로는 업무 혁신, 마케팅 전략 같은 중요한 의사결정을 합리적으로 내릴 수 있도록 지원하는 역할도 해야 한다.

데이터 랭글러는 한국에서는 ‘데이터 매니저’라는 말로 통한다. 영어로 랭글러는 조련사를 뜻한다. 데이터 랭글러는 길들여지지 않은, 날것의 데이터를 잘 다듬어 쓸 만한 것으로 만드는 역할을 한다. 그것을 정제해 바로 쓸 수 있게 만드는 게 데이터 정제가다. 데이터 해석가는 통역가의 역할을 한다. 데이터가 알려주는 의미를 경영진이 이해할 수 있도록 이야기해주는 역할을 한다.
이들 모두에게 요구되는 능력이 있다. 데이터 리터러시(data literacy) 즉, 데이터를 읽고 의미를 파악하는 능력이다. 거기엔 파이썬(Python)과 R, SQL 같은 데이터 언어를 이해하고 활용하는 능력도 포함된다. 파이썬은 직관적이고 확장성이 뛰어나서 데이터 분석뿐 아니라 가장 대중적으로 널리 쓰이는 프로그래밍 언어다. R는 복잡한 계산과 시각화 등 통계 분석에, SQL은 대용량 데이터베이스 구축과 활용에 쓰인다.

여기까지 읽고 다시 한숨을 쉬시는 대표가 있을지도 모르겠다. 데이터 시대에 살아남으려면 이 나이에 데이터 리터러시부터 배워야 한다는 말인가. 아니면 데이터 분석가부터 CDO까지 채용해야 한다는 말인가. 매출을 늘리고 고정비를 줄이려 밤낮으로 고민하는 대표들에게 데이터 시대가 주는 압박은 가혹하게 느껴질 수 있다.

할 수 있는 것부터 하자. 대표자가 가장 잘할 수 있는 일, 기업문화의 조성 말이다. 먼저 모든 직원들 앞에서 “앞으로 중요한 의사결정을 내릴 때엔 반드시 데이터를 보겠다”고 선언하자. 그러면 데이터를 다루는 데에 능숙한 직원들부터 보고서에 데이터를 넣기 시작할 것이다. 반면, 데이터를 다루는 데에 익숙치 않은 직원들은 혼란에 빠질 것이다. 그들은 교육을 받게 하자. 정부는 직업훈련 포털을 통해 디지털 신기술 훈련과정을 무료로 지원하고 있다.

데이터를 배우는 게 회사를 위해서 필요한 일만은 아니다. 많은 직장인들이 더 나은 삶을 위해 데이터 언어를 배우고 있다. 그중 파이썬은 어지간한 제2외국어보다 인기가 높다. 한 파이썬 공부 모임에서 있었던 일이다. 그 모임참여자 20명 중 15명은 대기업의 상품개발자 등 마케터였고, 나머지는 언론사 데이터저널리스트들이었다. 한 대형 쇼핑몰의 과장이라고 자신을 소개한 한 수강생은 이렇게 말했다.

“신상품을 내려고 경쟁 상품들 트렌드를 분석하고 있었을 때 일이에요. 요즘은 상품이 많아서 가격 정보만 끌어와도 데이터량이 어마어마해요. 엑셀로 돌리면 계속 오류가 나서 들여다보고 있어야 해요. 한참 씨름하고 있는데, 신입이 와서 ‘과장님, 저 먼저 퇴근할게요’ 하는 거예요. 열 받아서 ‘지금까지 한 거 내놔봐라’ 하고 들여다보니 그 직원은 깔끔하게 다 끝냈더라고요. 파이썬으로 돌려서. 그래서 여기 왔어요. 저도 일 빨리 끝내고 저녁에 애랑 좀 놀아주려고요.”

만약 앞서 예로 든 중소기업가가 상품개발자들로부터 “데이터 분석가를 채용해달라”는 요청을 받았을 때, “업무 시간을 빼줄 테니 직접 데이터 언어를 배워서 해봐라”라고 반응했다면 어땠을까. 아니면, “데이터 분석가를 채용해줄 테니 그 전에 그와 협업할 수 있을 정도로 데이터 언어를 익혀봐라”라고 조건을 걸었다면 어땠을까. 적어도 시행착오 기간은 줄일 수 있지 않았을까.

이경숙 과학스토리텔러는…
기자, 사회적기업가의 삶을 멈춘 후 과학을 다시 만났다. 과학이라는 창문을 통해 우주와 생명의 신선한 공기를 마시고 있다. 공역서로 <저렴한 것들의 세계사>, 저서로
<산타와 그 적들: 삶의 문제를 해결하는 사회적기업 협동조합 이야기> 등이 있다. 빅이슈 미디어사업단장 겸 세종학당 이사.

이경숙 과학스토리텔러