사례로 배우는 빅 데이터 경영
불로장생(不老長生)·불로불사(不老不死)는 어느 시대 어느 민족이든 공통적으로 열망하고 이것을 실현하기 위한 방안을 마련하기 위해 노력해 왔다고 해도 과언이 아니다. 20세기 이전에는 전염병의 예방과 확산을 방지하기 위해 노력했다면 산업화와 정보화가 발전한 20세기는 치료법을 개발하고 병원의 산업화를 통해 질병을 치료하고 치유해 인간의 수명을 연장시켰다.그러나 미래를 살아가는 우리들은 단순히 질병을 치료하고 치유하는 것이 아니라 질병을 예방하고 관리해 건강하게 오래 살 수 있는 삶을 영위할 수 있기를 원한다. 이렇게 수많은 사람들이 원하는 이러한 삶을 위해서는 그동안 축적돼 온 데이터가 그 해법을 제시할 수 있을 것이다. 미숙아 생리 데이터 실시간 모니터링
맥킨지에서 2011년 발간한 보고서에 따르면 빅 데이터는 건강·의료 부문에 선진화를 가져올 수 있을 것이라고 강조한 바 있다. 미국의 의료 부문은 빅 데이터의 활용으로 연간 3300억 달러의 직간접적인 비용을 절감할 수 있는데, 이는 미국 정부의 의료 예산의 약 8%에 해당하는 규모라고 맥킨지 보고서는 주장하고 있다.
건강·의료 부문에서 데이터 분석은 이미 많이 활용되고 있다. 미국은 모든 분야에서 빅 데이터를 가장 많이 활용하고 있는데 역시 의료 분야에서도 선도적으로 활용되고 있다는 것을 알 수 있다. 버락 오바마 미국 대통령이 헬스 분야에 대한 투자를 적극 강조함에 따라 정부 주도의 빅 데이터가 활성화됐다. 미국 국립보건원은 유전자 데이터 공유를 통한 질병 치료 체계를 마련하고 의약품 정보를 제공하는 필박스(Pillbox) 프로젝트를 추진하고 있다.
미국에서는 한 해 220만 명 이상이 약물 부작용으로 입원하고 있으며 약물 부작용은 미국인 사망 원인 4위로 나타날 정도로 심각한 상황이다. 미국 국립보건원(NIH)은 이러한 상황이 나타나는 이유가 인간의 3만5000개 유전자에 따라 같은 질환이라도 증상이 다르게 나타나며 약물 반응도 다르게 발생하기 때문에 유전자 데이터와 인간의 다양한 유전자를 분석, 질병을 치료할 수 있을 것이라고 예상했다. 이에 따라 국립보건원은 75개 기업과 기관들과의 파트너십을 통해 200테라바이트(TB)의 유전자 데이터를 확보했다.
이는 ‘1000 유전체 프로젝트’의 일환으로 시작됐으며 이 프로젝트를 위해 전 세계에서 2662명의 유전자 정보를 저장하고 질병 연구를 위해 1% 이상의 빈도를 나타내는 유전적 다양성을 분석하기 시작했다.
또한 이러한 정보들을 쉽게 볼 수 있고 공유·분석할 수 있도록 공개해 자신의 질병과 관련한 예측을 할 수 있다. 결국 모든 사람이 자신의 개성과 장단점·특성·진료기록을 유전자 정보와 함께 인터넷에 올려 타인의 정보와 비교 ·분석이 가능해짐에 따라 어떤 유전자가 질병을 발생시키는지에 대한 데이터베이스가 만들어지고 이러한 데이터를 기반으로 질병 치료에 활용될 수 있다.
NIH는 약 검색 서비스를 통해 얻어지는 다양한 사용자의 질병에 대한 통계 데이터를 활용해 질병 분포와 추세를 예측하고 있다. 즉, 필박스 프로젝트다.
이 프로젝트는 NIH 산하 국립의학도서관에서 제공하는 의약품 정보 서비스로, 이를 통해 수집된 데이터를 통해 후천성면역결핍증 등 관리 대상인 주요 질병의 분포, 연도별 증가 등에 대한 통계치를 확보하고 있다. 사용자가 복용 중인 약에 대한 정보가 불분명할 때 필박스를 통해 약에 대한 정확한 정보를 확인할 수 있는데, 알약에 새겨진 글자·번호·색상·모양·크기 등 간단한 약에 대한 설명만으로도 정확한 약의 효능과 정보를 제공한다.
또한 새로운 약을 개발한 제약회사는 자유롭게 새로운 약에 대한 정보를 직접 입력할 수 있는 데이터 시스템을 제공하고 사용자 역시 직접 약에 대한 정보를 공유할 수 있게 함으로써 제조사와 사용자 간의 유기적인 쌍방향 상호작용을 통해 약에 대한 정보를 제공할 수 있도록 하고 있다. 평균 한 건에 알약의 기능과 유효기간을 확인하는데 필요한 비용이 약 50달러(한 해 동안 NIH에 접수되는 알약의 기능이나 유효기간을 문의하는 민원 수 100만 건 이상)였으나 이 서비스를 이용함으로써 연간 5000만 달러의 비용이 절감됐다. 베이비 붐 세대 치매 환자 급증 예고
캐나다 온타리오 공과대병원에서는 미숙아 모니터링을 통한 감염 예방과 예측을 실시하고 있다. 이 미숙아 모니터링 시스템은 신생아의 혈압·체온·심전도와 혈중 산소 포화도 등 미숙아 모니터링 장비에서 생성되는 환자당 하루 9000만 건 이상의 생리학 데이터 스트림(data stream)을 실시간으로 분석하고 있다.
환자를 치료한 데이터는 병원이 제공하고 온타리오 공과대는 수집된 데이터를 분석하고 분석할 수 있는 시스템과 소프트웨어는 기업이 지원하는 등의 협력 체계를 통해 질병을 예측하고 있다. 인큐베이터 안의 미숙아 및 신생아들의 신체 정보를 실시간으로 분석해 의료진이 신생아의 이상 징후를 알아낼 때보다 최소 6시간에서 24시간이나 먼저 감염 사실을 알아내고 위험 상황을 밝혀냄으로써 상태가 더 악화되기 전에 치료를 시작할 수 있다. 이렇게 의료진보다 먼저 감지할 수 있는 것은 각종 의료 장치와 센서를 통해 실시간으로 수집된 심장박동, 호흡 상태 등과 같은 신체 정보 관련 데이터가 실시간으로 분석돼 의료진에게 전달되기 때문이다. 임산부 14명 가운데 1명꼴로 미숙아를 낳고 미숙아 4명 가운데 3명이 숨지던 치료 환경에 데이터를 분석함으로써 획기적인 변화를 가져올 수 있었다. 이를 처음에 연구했던 캐롤린 맥그리거 온타리오 공과대교수는 더 많은 데이터를 가질 수 있다면 지금보다 훨씬 더 많은 생명을 구할 수 있을 것이라고 강조했다.
우리나라는 빅 데이터에 대한 활용이 아직 활성화되지 않았지만 공공 기관에서 건강과 관련해 빅 데이터를 분석한 사례가 있어 소개한다. 한국정보화진흥원은 작년에 국민건강보험공단과 협력해 1955년부터 1963년 사이에 태어난 베이비부머 세대의 건강 상태에 대한 데이터를 분석했다. 국민건강보험공단의 진료비 지급 자료 49만4964건을 활용했고 이를 토대로 2006년부터 2011년까지 298개 질병에 대한 데이터를 분석했다.
298개 질병에 대한 연령별·성별·지역별로 나누고 54개 만성질환을 따로 추출해 분석했다. 이러한 분석 결과 최근 5년간 베이비부머 환자가 가장 많이 증가한 질환 10개에는 치매와 암이 대부분으로 나타났다.
베이비부머 세대 가운데 치매 환자는 2006년 717명에서 2011년 6056명으로 약 8.4배나 증가한 것을 알 수 있었다. 이는 앞으로 베이비부머 세대의 은퇴 후 노후 생활에 치매가 장애 요인이 될 확률이 높다는 것을 말해준다. 치매는 대표적인 고비용 만성질환으로도 꼽힌다.
윤미영 한국정보화진흥원 빅데이터 전략연구센터 선임연구원
© 매거진한경, 무단전재 및 재배포 금지