무중단·무사고·무재해 비결은 인프라 이중화와 내부 훈련
올해로 10주년을 맞은 네이버의 데이터센터 ‘각 춘천’은 ‘사용자의 데이터는 보존되어야 한다’는 목표에 근간한다. 이 목표는 10년간 ‘무중단, 무사고, 무재해’ 3無로 꾸준히 지켜지고 있다. 네이버는 각종 대비시설, 임직원 훈련 등으로 인해 서비스 안정화에 힘쓰고 있다.
9일 찾은 춘천에서는 네이버가 지난 10년간 구축해온 데이터센터의 역사를 한눈에 볼 수 있었다. 타 포털 기업이 위탁 데이터센터를 확보하던 시기에 네이버는 시선을 돌려 자체 데이터센터 구축에 나섰다. 지난 2013년 6월 가동을 시작한 각 춘천은 축구장 7개 크기인 총면적 46850㎡, 약 10만 유닛(서버의 높이 단위규격)의 서버를 수용 공간을 보유하고 있다. 비수도권으로는 최대 규모다. 고도가 높은 춘천의 서늘한 공기를 이용한 공조 시설은 네이버만의 혁신 기술이기도 하다. 각 춘천의 이름은 팔만대장경을 보관한 해인사 장경각의 이름에서 따왔다.
지난해 10월 판교에서 발생한 SK C&C 화재로 발생한 카카오의 서비스 중지로 인해 네트워크, 뱅킹, 연계 서비스 이용이 중지된 사건은 데이터센터 안전망 확보의 중요성을 몸소 느끼게 해주었다. 특히 데이터센터의 대부분은 관련 인프라와의 접근성 문제 때문에 수도권에 밀집되어 있어 화재와 같은 재난관리가 어렵다. 당시 네이버는 빠른 서비스 복구 및 대응으로 주목받았다.
네이버 데이터센터의 가장 큰 특징은 서비스 인프라의 이중화와 연속성이다. 각 춘천의 데이터센터는 큰 하나의 건물처럼 보이지만 세 개의 데이터센터가 각각의 역할을 수행하는 독립된 구성으로 되어있다. 정수환 네이버클라우드 IT서비스본부장은 “춘천에서 불이 나도 서비스 전면 장애는 없을 것”이라며 “주요 서비스를 모두 분산화해 전면 장애로 이어지기 쉽지 않다”고 단언했다. 춘천뿐 아니라 충청북도, 경상남도 등 다양한 지역에 데이터센터를 구축하는 등 인프라 이중화로 안전성을 높였다.
재난 대응 모의 훈련 200회
서비스 연속성을 위해서는 7가지 내부 원칙을 세웠다. 7대 원칙은 ▲죽지 말아야 한다 ▲안전해야 한다 ▲데이터가 유실되지 말아야 한다 ▲빨라야 한다 ▲유연해야 한다 ▲미리 준비해야 한다 ▲비용은 효율화해야 한다는 내용을 담고 있다. 원칙을 내재화하기 위해 실시간 장애를 감지하는 통제센터인 ‘그린에너지통제센터’와 ‘IT서비스통제센터’를 세웠다. 지난 10년간 쌓인 200회의 재난 대응 모의훈련으로 예상할 수 있는 재해의 범위도 넓어졌다. 노상민 네이버클라우드 데이터센터 센터장은 “선임자와 후임자 간의 지속적인 업무 교류와 재발방지를 위한 대응 프로세스를 통해 초기 대응에 대한 민감도를 개선하고 있다”고 설명했다.
한편, 데이터센터가 안고 있는 고질적인 문제인 ‘전력 과다 사용’에 대한 고민도 이어가고 있다. 각 춘천은 세계적 친환경 건물 인증 제도인 LEED(Leadership in Energy and Environmental Design) 최고 등급인 ‘플래티넘(Platinum)’을 획득했다. 네이버만의 3세대 공조 설비인 NAMU(NAVER Air Membrane Unit)-II는 공기 필터의 면적을 확대하고 연소 가스량을 조절해 냉·온풍의 양을 조절할 수 있는 바이패스(By-pass) 댐퍼를 적용했다. 공기 통과율과 공기가 지나갈 수 있는 공간을 확대하면서 전력 사용량도 기존 공조기 대비 줄어들었다. 서버룸에서 나오는 폐열도 재활용한다. 이를 흡수한 부동액을 도로 아래 특수 배관으로 순환시키며 각 춘천 내 도로의 눈을 녹이는 ‘스노우멜팅’ 시스템에도 활용한다.
네이버는 이러한 경험을 토대로 올해 하반기 각 춘천의 6배 규모인 ‘각 세종’을 가동할 예정이다. 각 세종은 각 춘천의 6배 규모의 하이퍼스케일 데이터센터다. 네이버는 각 세종을 기반으로 네이버의 초대규모 인공지능 ‘하이퍼클로바’를 성장시키겠다고 발표했다. 정 본부장은 “각 세종은 최첨단 IT 환경에서 활약할 수 있는 준비단계로 클라우드 기반의 네이버 서비스를 다양하게 소개하겠다”고 말했다.
조수빈 기자 subinn@hankyung.com