정형기 트리플 ‘데이터 엔지니어’
바야흐로 ‘데이터 시대’다. 우리의 행동 하나가 데이터가 되고, 그 데이터가 쌓여 정보가 되고, 돈이 되는 시대다. 앱에서 살까말까 고민하다 장바구니에 담아뒀던 제품이 ‘오늘만 할인’이라는 문구로 쿠폰이 도착해 있는가 하면, 늘 검색하던 여행지는 현지의 사진과 함께 ‘지금 떠나볼까요’라는 설레는 푸시 알림으로 나를 두드린다. 내가 궁금해 하는 관심정보를 어떻게 귀신같이 알고 쏙쏙 전달해 주는지 신기할 정도다. 이런 친절한 고객맞춤형 서비스의 핵심은 데이터다. 서비스 이용자들의 패턴을 데이터로 분류하고, 분석해 결과값을 도출해내는 방식이다. 데이터의 중요도가 높아지면서 대기업은 물론 중견·중소기업, 하물며 일당백이 돼야 하는 스타트업에서도 데이터 전문가 모시기에 열을 올리고 있다.특히 여행서비스업은 데이터의 활용이 더욱 중요하다. 여행 전,후 서비스 이용자들의 관심사 및 패턴을 분석해 인생의 추억을 만들어주기 때문이다. 초개인화 맞춤 여행 플랫폼을 추구하는 ‘트리플’은 여행 정보부터 항공, 숙박, 리뷰, 일정 등 월 3만개의 데이터 테이블을 분석해 서비스를 제공한다. 500만 건의 누적 여행일정을 기초 데이터로 활용해 최적의 데이터를 산출하는 정형기(42) 트리플 데이터팀장을 만나 ‘데이터 엔지니어’의 세계를 들어봤다.
이제는 데이터를 활용하지 않는 산업군은 없을 정도로 데이터 활용이 일반화 되어 있는 것 같아요.
“이커머스는 물론이고, 제조업이나 공공기관 등을 봐도 데이터를 활용하지 않는 기업은 거의 없습니다. 데이터 활용이 가장 적다고 볼 수 있는 엔터테인먼트업계에서도 이제는 시시각각 변하는 수요와 반응에 대한 광범위한 데이터를 활용하기 시작했죠. 앞으론 ‘데이터 드리븐’이라는 단어는 더 이상 필요 없어진 것 같아요. 데이터를 활용하는 사업 전략은 이제 아주 자연스러워졌어요.”
일각에서는 데이터 시대가 아주 빨리 왔다고도 하는데, 이유는 뭐라고 생각하세요.
“데이터 자체가 폭증이라고 표현할 만큼 굉장히 빠르게 늘고 있어요. 게다가 데이터를 소비하는 소비자들은 더 다양하고 빠른 데이터를 원하고 있고요. 때문에 데이터를 활용하는 범위가 지금보다 더 넓어질 것이고 그렇게 되면 데이터 엔지니어가 더 중요해지지 않을까 생각합니다.(웃음)”
보통 기업에서 데이터를 활용한다고 했을 때 어떤 것들이 데이터가 되고, 어떤 데이터가 좋은 데이터인지 판단할 수 있는 가이드가 있나요.
“어떤 데이터를 지표로 뽑을지에 대해선 데이터 전문가들과 실무 담당자들이 충분한 논의를 거쳐 정하는데요. 트리플로 예를 들면, 우선 활동 유저에 대한 지표를 어떤 기준으로 정할지를 정했어요. 이유는 데이터 파트 외 다른 직군에서도 데이터를 확인하기 때문에 기준을 어떻게 정하느냐에 따라 데이터 값이 달라지거든요. 그래서 내부 토론을 거쳐 서비스에서 중요하다고 생각하는 이벤트 16가지를 선정했고, 데이터가 쌓이는 곳 14개를 정해 놓은 거죠.”
어떤 항목들은 선정했나요.
“예를 들어, 이용자가 리뷰나 스크랩, 일정 생성 등의 카테고리를 이용하면 데이터가 쌓일 수 있게 정해놨어요.” 데이터를 활용한다는 것은 기업 측면에서 어떤 이점이 있을까요.
“미리 예측할 수 있다는 점이죠. 산업군마다 차이는 있겠지만 결국 데이터는 돈이고, 그 돈의 흐름을 데이터로 정리, 분석이 가능하게 하는 거죠. 가구나 가전제품 등 구매패턴이 아주 긴 제품의 제조사들 역시 소비자 데이터를 쌓아 놓고 분석해 비즈니스에 적용시키고 있으니까요. 최근 생겨나고 있는 스타트업만 보더라도 내부 데이터 담당, 팀을 먼저 꾸리고 있어요. 데이터는 쌓는 시점부터 경쟁사와 차별할 수 있는 포인트라 생각하는 거죠.”
데이터 관련 직군들 |
데이터 모델러 생산 시스템과 앱에서 데이터를 사용하고 비즈니스 프로세스를 구동할 수 있도록 해주는 역할. 데이터 디자인을 만들고 데이터 필드 간 관계를 정의하는데, 궁극적으로 시스템에 구축될 물리적 디자인의 청사진을 그리는 직무. 데이터 사이언티스트 데이터의 다각적 분석을 통해 조직의 전략 방향을 제시하는 기획자이자 전략가. 데이터 사이언티스트는 데이터 엔지니어링과 수학, 통계학, 고급 컴퓨팅 등 다방면에 걸쳐 복합적인 지식과 능력을 갖춰야 함. 데이터 분석가 데이터 이용자의 요구를 분석해 논리모델을 구성하는 직군. 물리모델을 사용해 데이터베이스에 반영하는 단계별 데이터 모델링을 지원함. 데이터 과학자 데이터 과학과 관련 분야를 전공하고 데이터 분석 업무에 종사하는 직무 데이터 과학자는 현장에 존재하는 대량의 데이터를 모으고, 분석에 적합한 형태로 가공해 데이터가 의미하는 바를 이야기에 담아 다른 이에게 효과적으로 전달하는 역할. |
기업 입장에서는 데이터를 이기는 전략 포인트로 활용할 수 있겠네요.
“네. 현재 대부분의 기업에서 데이터를 전략으로 활용하고 있죠.”
“최근 기업에서 데이터 엔지니어 등 데이터 관련 직무 수요 높아져···기업 경영 전략 플랜을 세우는데 데이터가 아주 중요해져”
그럼 최근 기업에서는 데이터 엔지니어를 비롯해 데이터 관련 직무를 채용하겠군요.
“예전에 비해 많아졌죠. 그리고 기업이나 팀마다 차이가 있는데, 데이터 분야 내에서 엔지니어, 모델링, 분석가 등으로 직무가 나뉩니다. 대기업의 경우엔 데이터 직무가 세분화 되어 있겠지만 스타트업 같은 작은 기업은 엔지니어나 모델러가 전반적인 데이터 관련 업무를 하고 있는 곳이 많죠.”
기업에서 데이터 엔지니어는 구체적으로 뭘 하는 역할인가요.
“기업에서 데이터 통계 지표를 활용해 의사결정에 이르는 구성원을 데이터 소비자라고 하는데요. 이 데이터 소비자가 통계 지표를 요구할 때 어떤 형태로, 어떻게 사용할 지를 미리 파악해 데이터를 준비해두는 일을 합니다. 예를 들어, 이용자가 상품을 조회하고 실제 예약까지 몇 명이나 실행했는지, 결재금액은 얼마인지, 취소는 몇 명이나 했는지 등등의 데이터를 산출하는 일이죠. 또 요즘 많이 하는 건 마케팅에서 어떤 미디어를 통해 신규 유저가 유입되고, 가입 이후 특정 페이지 방문 등 서비스의 주요 활동을 지표로 볼 수 있게 만들기도 합니다. 한마디로 데이터 영역을 전문으로 담당하는 소프트웨어 엔지니어라고 생각하시면 됩니다.”
데이터 수집 및 관리는 어떤 방식으로 이뤄지나요.
“보통 데이터 창고라 불리는 ‘데이터 웨어하우스’라는 곳이 있는데요. 이곳에선 데이터를 물건처럼 물류 창고에 입고-분류-진열로 나눠집니다. 재료가 되는 데이터를 구해 와 창고에 바로 찾아 사용할 수 있게 분류한 뒤, 이 재료들로 만들어진 완성품을 잘 진열하는 것이죠. ‘스테이징 영역(데이터 입고)’은 보통 서비스 론칭과 동시에 통계 데이터 지표를 보기 위해 개발이 어느 정도 단계에 오르면 데이터팀에 공유가 됩니다. 엔지니어는 서비스에 사용되는 데이터베이스, 파일, 로그 등 모든 데이터를 파악하고 적재된 데이터의 종류에 맞게 추출하는 개발을 하게 되죠.” 데이터 입고 시스템 개발 시 고려해야 할 포인트가 있을 것 같아요.
“서비스 시스템의 부하를 주지 않기 위한 방법들을 고민하는데요. 데이터 이동량을 최소화하거나 읽기 전용 복제본 데이터를 만들거나 하는 방법들이죠. 이 영역의 데이터는 휘발성으로 관리하고 일정 기간이 지나면 삭제합니다. 그리고 ‘데이터 웨어하우스 영역(데이터 분류 창고)’인데요. 쉽게 말해, 창고에 물건을 쌓아 두고 칸 별로 정리하는 것처럼, 필요 데이터를 여러 사람이 찾아 쓸 수 있게 관리하는 겁니다. ‘데이터 마트(데이터 진열)’는 마트 진열대처럼 필요한 사람들이 쓸 수 있게 데이터를 가공해 제공하는 역할인데요. 이곳에서는 데이터를 사용하는 소비자라면 그 기준을 이해하고 데이터를 볼 수 있게 구조화해 놨어요. 마치 마트에 카테고리별 구획이 나눠져 있고, 찾아갈 수 있도록 안내를 해주는 것처럼 말이죠. 또 자영업자들이 큰 대형마트에 와서 물건을 구입하듯이 데이터 마트에 올라온 데이터를 분석가들이 가져가 분석하기도 합니다.”
전문가가 아닌 일반 직무에서 데이터를 다루기엔 어려울 수 있겠다는 생각도 드네요.
“맞습니다. 데이터 전문 직군들은 익숙하지만 일반 직군들은 데이터에 대한 두려움이 있을 수 있죠. 그래서 데이터 샌드박스 기능을 도입해 직접 데이터를 만들어 볼 수 있는 체험 실습 공간도 운영 중입니다. 이곳에서는 데이터를 활용하다가 실수해도 기존 통계 시스템에 영향이 없도록 분리해 관리되기 때문에 부담이 없죠. 무엇보다 현업에서의 관점으로 데이터를 바라보기 때문에 새로운 지표의 인사이트가 나오기도 하고요.”
데이터 엔지니어를 비롯해 데이터 파트의 직군은 타 부서와 협업을 주로 하겠네요.
“서비스 기획, 마케팅 등 각 부서별 담당자와 주로 협업을 하곤 하죠.” 서비스 기획이나 마케팅 담당자는 주로 문과 출신이 많을 텐데, 사용하는 언어나 관점이 달라 생기는 에피소드도 있을 것 같아요.
“말씀하신대로 주로 문과 스타일이 많아요. 예를 들어, 서비스 오픈을 했을 때 기획이나 마케팅 부서에서 데이터를 요구할 때도 마찬가지예요. 커뮤니케이션의 방법이 달라 서로 부딪히는 경우가 없진 않죠. 저희뿐만 아니라 내부에 데이터 팀이 있는 기업의 경우엔 다들 고민하는 부분일 거예요. 저희 팀원들에게도 늘 데이터 팀이 처음으로 만나는 고객이 내부 팀원이라고 말하죠. 특히 데이터 엔지니어는 고객용 서비스를 만드는 게 아니라 뒤에서 묵묵히 내부의 직원들을 지원해주는 역할이라는 점을 잊지 말라고요. 경쟁상대가 아닌 파트너라는 점을 강조해요.”
"이과출신 데이터 직무 문과 출신 마케터 서비스 기획 직무와 소통 많아
데이터 직무는 내부 직원이 고객, 서로 파트너라는 점 강조"
데이터를 다루는 직군은 아무래도 꼼꼼하고 날카로울 것 같다는 선입견이 있는 것 같은데, 어떠세요.
“아무래도 데이터를 맞춰야 하니까 그런 것 같은데요. 그 얘길 하시니 떠오르는 사건이 있어요,(웃음) ‘46원 사건’인데요. 제가 트리플로 온지 얼마 안됐을 무렵, 데이터를 새로 구축했는데 기존 통계랑 안 맞는 걸 알게 됐죠. 저희 팀에서 계산한 매출이 46원 많았죠.”
46억이 아니라 46원 인거죠? 그 정도면 그냥 넘어가도 될 일 같은데.
“내부에서도 시스템이 바뀌면서 그럴 수 있다고 정리가 됐어요. 근데 직업병 때문인지 뭔지는 모르겠지만 그걸 해결해야겠더라고요. 그래서 누가 시키지도 않았는데 결제 창을 하나씩 다 열어 확인하기 시작했어요.”
직업병이군요.(웃음) 그래서 원인은 찾았나요.
“다행이도요.(웃음) 어떻게 찾았냐면 고객이 호텔에서 계산할 당시 환율이 다르게 적용된 거였죠. 환율을 어떻게 계산했느냐에 따라 달라지는데, 부동 소수점이 잘못 쌓여 46원이 만들어 졌더라고요. 그 이후 내부에서 데이터가 문제가 발생했을 땐 다른 팀에서 저희 팀의 말을 더 신뢰하는 분위기로 바뀌었어요.(웃음)”
데이터 엔지니어가 되기 위해선 집념이 필요해 보이네요. 그밖에 갖춰야할 조건도 있을 것 같아요.
“저희 직업은 묵묵함과 끈기가 필요해요. 대외적인 서비스가 아니라 내부 고객인 동료들과 경영진을 위한 의사결정 지표를 만드는 직군이라 주목받는 일이 거의 없어요. 흔히 든 자리보다 난 자리가 티 나는 직군이라고 하죠. 응급실 의료진처럼 늘 바쁘고 삶과 죽음의 최전선에 있지만 환자들은 응급실 의료진을 기억하진 않거든요. 저희와 비슷한 것 같아요. 누가 알아주진 않지만 이 일에 자부심을 가지고 묵묵히 할 수 있는 끈기가 필요한 것 같아요.” 데이터 엔지니어가 되려면 컴퓨터 관련 전공은 필수인가요.
“그렇죠. 저도 전자정보통신공학을 전공했는데, 지금의 컴퓨터 공학과 전자공학에서 다루는 과목을 같이 배웠죠. 아무래도 컴퓨터 언어를 배울 수 있는 컴퓨터공학이나 정보통신, 전자공학과 전공이면 유리합니다. 기본적으로 데이터베이스 시스템에서 자료를 처리하는 용도로 사용되는 언어인 SQL(Structured Query Language)을 잘 다뤄야 해요. 여기에 빅데이터 플랫폼을 다룰 수 있거나 Python이나 JavaScript 같은 코딩 능력도 필요하고요. 데이터베이스 관련 자격증이나 정보처리기사도 도움 됩니다.”
"데이터 엔지니어, 기업 서비스 영역 한 눈에 파악할 수 있는 직무…
기업 성장과 데이터는 직결되기 때문에 향후 중요 포지션으로 부각"
현업 종사자로서 이 직업의 장점은 꼽는다면 뭐가 있을까요.
“장점이라면 데이터를 보면 기업 서비스 영역을 한 눈에 알 수 있어요. 서비스 전반에 걸친 데이터와 흐름을 파악한다는 점이죠. 그리고 공통 인프라 조직에 가깝기 때문에 특정 서비스가 잘 안되다고 하더라도 업무 자체가 안정적입니다. 무엇보다 현재 그리고 앞으로도 기업에서의 데이터는 성장과 직결되기 때문에 저희 몸값이 높아진다는 점이죠.(웃음)”
반면 단점도 있을 것 같아요.
“백조가 우아하게 물 위에 떠 있기 위해선 물장구를 쉼 없이 쳐야하잖아요. 저희 직업도 비슷한 것 같아요. 보이지 않는 곳에서 묵묵히 일해야 하는 직업이라 스포트라이트를 받거나 드라마틱한 성취감이 있진 않거든요. 그리고 타부서에 비해 보상이 그리 크지 않다는 건 단점일 수 있겠네요.”
데이터 엔지니어를 비롯해 데이터 관련 직무의 비전은 어떻게 보시나요.
“일반기업을 비롯해 제조업이나 공공기관까지 데이터를 활용하지 않는 회사는 없습니다. 앞으론 ‘데이터 드리븐’이라는 단어는 더 이상 필요없는 것처럼 데이터를 활용한 사업 전략은 자연스러운 것처럼 여겨질테죠. 그렇게 되면 데이터 관련 직무의 중요도는 더 높아질테고요.
강홍민 기자 khm@hankyung.com
[사진=이승재 기자]
© 매거진한경, 무단전재 및 재배포 금지