[FuturePlay's Signal] 카카오 화재로 드러나 데이터센터의 문제, 해결 방법 3가지

디지털 전환의 근간인 ‘데이터센터’…폭증하는 데이터 사용량, 감당할 수 있을까

[FuturePlay's Signal]


지난 10월 15일 일어난 카카오 서비스 집단 장애 사태는 SK 판교 데이터센터 화재로 인한 것이었다. 사고 이틀 뒤인 10월 17일 현재까지도 복구에 필요한 시간이 예상되지 않는다고 한다. 일부에서는 데이터와 운영 이중화가 돼 있지 않았다고 개탄하기도 한다. 우리가 공기처럼 느끼는 서비스들이 정말 공기처럼 작동하기 위해 얼만큼의 노력과 인프라가 필요한지 절감하게 된다.

데이터센터는 전산 전문 물리적 시설로 우리가 쓰는 모든 서비스에서 필요로 하는 데이터 연산·저장·송수신 등을 총체적으로 또 집합적으로 처리한다. 데이터센터는 현대 사회의 절대적 요소다. 우리 산업이 필요로 하는 디지털 전환의 근간 중 근간으로 한국에서만 7조5000억원의 시장을 이루는 자체만으로 거대한 산업이다. 거의 모든 것에서 그렇듯이 우리의 욕망은 데이터 또한 조금 막 쓰는 경향이 있다.

4년마다 2배씩 증가하는 데이터센터

인류는 거의 모든 자원이 무한한 것처럼 인식하며 살고 있다. 2015년 파리협정에도 불구하고 매년 이산화탄소 배출량은 전년을 경신한다. 에너지 사용량도 코로나19 사태의 영향으로 잠시 줄었던 2019년을 제외하면 매년 늘어나고 있고 쓰레기는 매년 40%씩 늘어난다. 이는 데이터 생산과 소비에서도 마찬가지다. 우리는 매년 23%씩 더 많은 데이터를 생산해 낸다.

이 속도대로라면 우리는 4년마다 2배 이상의 데이터센터를 필요로 한다. 실제로 데이터센터 시장은 매년 26%씩 성장하고 있다. 카카오와 같은 문제를 방지하기 위해서는 이중화를 위해 더 많은 센터를 필요로 할 수도 있다. 문제는 데이터센터 또한 지구 생태계 파괴에 기여 중이라는 것이다.

먼저 데이터센터는 엄청난 양의 전기를 필요로 한다. 데이터센터는 데이터를 빠르게 연산 처리하는 과정 중 반도체에서 어마어마한 열기를 생산한다. 아이로니컬하게도 이때 데이터센터는 전기로 열을 생산하고 전기로 열을 식힌다. 개중에는 바다에 데이터센터를 담가 열을 식히는 케이스도 있다. 하지만 접근성이 떨어져 유지·보수가 어려워지는 것은 물론 주변의 수온을 높여 주변 생태계 교란이 일어날 수 있다. 탄소 배출로 계산하면 1%를 차지하고 유럽 내에서는 전기 수요의 3.2%가 데이터센터에 소비되며 어떤 기관의 전망으로는 2030년 덴마크 내 전기 생산 15%가 데이터센터에 쓰일 것으로 예상한다.


데이터 시대를 위한 ‘세 가지 과제’

공간과 자원도 문제다. 데이터센터를 만들기 위해 더 넓은 부지를 확보해야 하고 이를 위해 사용되는 자원 역시 무시할 수 없다.

어차피 인류에게 데이터를 덜 생산하고 덜 소비하라고 호소하는 것은 무용하다. 우리의 욕망은 이를 허락하지 않는다. 우리는 세 가지 노력을 해야 한다. 에너지 효율화, 연산 효율화, 자원 효율화다. 이 셋 모두 기초 과학 발전까지도 필요한 어려운 과제다.

먼저 에너지 측면에서 현재 가장 현실성 있는 접근은 하이퍼 스케일 모델이다. 이전 데이터센터의 규모를 까마득히 넘어서는 엄청난 규모로 만드는 것이다. 쿨링 시스템 등을 한곳에서 관리하기에 효율이 높아진다. 하지만 쿨링의 효율화에서는 한계가 명확하다.

구글에서도 인공지능(AI)을 이용한 공조 시스템(HVAC) 관리를 통해 데이터센터 전력 효율을 23% 개선한 사례가 있지만 이 역시 제한적이다. 결국 반도체에서 발생하는 열을 제한하는 방식으로 발전해야 할 것으로 보인다. 현재 5nm 공정에서 2nm 공정으로 바뀌면 25% 이상의 열효율을 기대할 수 있다. 이와 같은 한계를 넘어설 혁신이 언제 이뤄질 수 있을지가 관건이다.

둘째, 현재 데이터센터에서 이뤄지는 많은 연산을 최대한 효율화하는 것이다. 일반적인 연산은 훌륭한 소프트웨어 엔지니어들이 충분히 해내고 있을 것이다. 최근 급성장한 연산의 수요는 AI다. AI 모델을 학습시키는 데 엄청난 양의 데이터와 연산을 필요로 한다. 모델을 완성하더라도 모델을 운영하는 데 또한 엄청난 연산을 필요로 한다.

그동안 우리는 빅데이터를 찬양해 왔다. 학습에서의 효율은 그간 뒷전으로 밀려 있었다. 이제 빅데이터보다는 스몰 데이터로 학습하는 방법을 더 많이 고민해야 한다. 이 영역은 MAGA(마이크로소프트·애플·구글·아마존)을 포함 다수의 테크 기업과 스타트업들이 시도하고 있는 영역이다. 더 효율적인 AI를 만드는 것은 매우 중요한 문제다.

마지막으로 이미 많은 데이터센터가 만들어졌다. 이것들을 어떻게 더 효율적으로 활용할 수 있을까. 모든 기업들과 관련 스타트업의 고민은 탄력적 운영(elastic management)이다. A의 리소스가 남으면 A에게 일을 더 주는 것이다.

이는 분명한 해결책이다. 다만 탄력적 운영이 어느 단위에서 일어나는가에 따라 그 영향력의 차이가 분명할 것이다. 서버 한 대 내에서 일어나는 탄력적 운영과 서버 100대 간에 일어나는 그것의 차이는 엄청나다. 이것이 다수의 데이터센터끼리 일어난다면 우리는 지어야 하는 데이터센터의 수와 규모를 더 줄일 수 있을지도 모른다.

데이터는 21세기의 원유로 생각돼 왔다. 원유의 대체재를 인류가 찾고 있듯이 지속 가능한 미래를 위해서는 데이터를 다루는 방법에 대해서도 더 나은 방법을 고민할 단계다.

안지윤 퓨처플레이 전략기획팀 이사
상단 바로가기