{현존 최고 슈퍼컴의 30배 성능…일본 ‘1조원 투자’ 미국 ‘백악관이 주도’}

[이지수 한국과학기술정보연구원 슈퍼컴퓨팅본부 책임연구원] 지난해 미국 정부는 슈퍼컴퓨터(이하 슈퍼컴) 핵심 부품의 중국 판매를 금지했다.

이 조치에 반발해 리커창 중국 국무원 총리는 미국 상무부 장관을 만나 이를 철회하지 않으면 러시아 등 다른 국가들과 협력해 슈퍼컴을 개발하겠다고 엄포를 놓았다. 이러한 중국의 도전에 대응해 오바마 행정부는 2025년까지 엑사급 컴퓨터를 개발하겠다는 계획을 발표했다.

주요 선진국들이 막대한 자금을 투입해 경쟁적으로 개발하려는 엑사급 시스템은 무엇일까. 엑사급 컴퓨터는 1초에 무려 100경 회의 연산을 수행하는 엑사플롭스(EF : ExaFLOPS)의 계산 능력을 보유한 시스템을 말한다.

현재 세계에서 가장 빠른 컴퓨터 중국 톈허2호의 실측 성능이 34페타플롭스(PF : PetaFLOPS)이니 엑사급 슈퍼컴의 계산 능력은 이의 30배가 넘는다. 참고로 1EF는 1000PF에 해당한다.
‘초당 100경 회 연산’, 엑사급 슈퍼컴 개발 경쟁
(사진) 미국 오크리지 국립연구소의 슈퍼컴퓨터 ‘타이탄’.

◆슈퍼컴, 신약 개발·항공기 설계 등에 활용

그렇다면 이렇게 거대한 슈퍼컴이 왜 필요할까. 예를 들어 항공기 설계 과정을 살펴보자. 지난 수십 년간 항공기 제조사들은 컴퓨터 시뮬레이션을 이용해 제품 설계의 비용 및 기간을 대폭 단축할 수 있었다. 하지만 정체된 설계 효율성을 개선하기 위해서는 보다 정교한 방정식을 다뤄야 하며 이를 위해서는 엑사급의 슈퍼컴이 필수적이다.

슈퍼컴은 기후변화, 신약 개발, 항공기 설계, 입자물리학 등 다양한 분야에서 발생하는 복잡한 문제를 해결하는 데 활용된다. 또한 스텔스 기술을 개발하고 미사일 궤적을 계산하며 핵무기 폭발을 예측하는 등 국가 안보의 관점에서도 핵심적 역할을 하고 있다. 이 때문에 엑사급 컴퓨터를 보유하지 못하면 ‘2류 국가’로 내려앉을 수 있다는 두려움까지 있다.

그렇다면 엑사급 슈퍼컴을 구현하기 위한 방법은 어떤 것이 있고 넘어야 할 기술적 문제들은 무엇일까. 현재 추진되는 대표적인 방법으로는 ▷일반적 중앙처리장치(CPU)에 의존하는 ‘멀티코어(multi-core) 방법’ ▷많은 코어를 가지는 CPU를 사용하는 ‘매니코어(many-core) 방법’ ▷그래픽처리장치(GPU) 등의 가속기를 활용하는 ‘가속기 방법’ 등을 꼽을 수 있다.

멀티코어 방법의 대표적인 사례로 현재 일본 최고의 슈퍼컴인 ‘K’ 컴퓨터를 들 수 있다. 여기에는 8개의 코어로 이뤄진 ‘SPARC64’ CPU를 8만8128개 이용해 실측 성능 11PF를 구현했다. 미국 과학재단의 대표적 슈퍼컴인 ‘블루워터(Blue Waters)’ 시스템도 이 부류에 속한다.

매니코어 방법의 대표적인 사례는 미국 로렌스 리버모어 국립연구소에서 운영하는 세계 3위 슈퍼컴인 ‘세쿼이아(Sequoia)’ 시스템이다. 저전력 16코어 파워PC CPU가 9만8304개 탑재돼 17PF의 실측 성능에 도달했다.

가속기 방법의 시스템으로는 세계 최고의 슈퍼컴 톈허2호를 들 수 있다. 3만2000개의 12코어 제온 CPU 외에 4만8000개의 57코어 제온 파이를 가속기로 사용해 무려 34PF이 실측 성능에 도달했다.

또한 미국 최고의 슈퍼컴인 타이탄은 1만8688개의 16코어 ‘옵테론(Opteron)’ CPU 외에도 같은 수의 2500코어 테슬라(Tesla) GPU를 보조 연산장치로 이용해 18PF의 성능을 구현했다.

하지만 이러한 방법으로 엑사급 시스템을 구현하는 데에는 넘어야 할 장벽이 너무도 많다. 그 첫째가 에너지 효율성이다. 현실적인 운영에 대한 비용 등을 고려해 슈퍼컴 시스템의 전력 소모를 20MW 이내로 맞춰야 한다. 톈허2호의 전력 소모가 18MW이니 에너지 효율성이 25배 이상 개선돼야 하는 것이다.

데이터 이동도 심각한 문제다. 현재 메모리에서 CPU로 데이터를 옮기는 데 필요한 시간은 CPU에서 계산을 수행하는 데 필요한 시간의 100배에 이르며 하드디스크는 1만 배에 이른다. 앞으로 CPU의 계산 능력이 향상되면서 이 격차는 더 벌어질 것으로 예상되기 때문에 이를 해결하기 위해서는 근본적인 고려가 필요하다.

◆일본, ‘멀티코어’ 방식 적용할 듯
또 다른 문제는 시스템의 안정성이다. 미국 타이탄 시스템은 시스템 전체에 영향을 미치는 장애가 평균적으로 하루에 1회 발생하는 것으로 알려져 있다. 이를 기준으로 하면 엑사급 시스템의 장애 발생 주기는 25분에 불과하다. 따라서 사용 가능한 엑사급 시스템을 위해서는 안정성을 100배 이상 개선해야 한다.

그렇다면 현재 각국이 추진하고 있는 엑사급 슈퍼컴 개발의 세부적인 내용을 살펴보자.

계획이 가장 구체화된 나라는 일본이다. ‘플래그십(Flagship) 2020’ 사업을 통해 K 컴퓨터에 이어 일본을 대표할 슈퍼컴을 구축하고 이를 사회와 과학기술 문제를 해결하는 데 활용하려는 것이다. 사업 예산은 1000억 엔(약 1조1500억원)이며 사업 범위에는 시스템의 연구·개발·설치 외에 활용 기술의 개발도 포함된다.

사업 주관은 이화학연구소 산하 계산과학연구기구(Advanced Institute for Computational Science)가 맡고 주관 사업자로는 후지쯔가 선정됐다. 구축 일정을 보면 2015년 3분기 기본 설계 완료, 2018년 1분기 상세 설계 및 구현 완료, 2020년 1분기 제조, 설치 및 세부 조정을 완료하고 본격 운영을 개시한다.

이 컴퓨터로 해결하려는 문제를 건강 및 장수, 재난 예방 및 기후변화, 에너지, 산업 경쟁력 강화, 기초과학의 다섯 범주로 분류하고 각 범주에서 우선적으로 다뤄야 하는 과제를 선정했다. 또한 이 과제를 해결하기 위한 요구 사항을 분석해 이를 시스템 설계에 반영했다.

주목할 것은 이러한 요구 사항에 연산 능력뿐만 아니라 대규모 데이터를 처리하는 빅 데이터 능력도 함께 포함됐다는 것이다. 예를 들어 30분 후의 기상을 30초 간격으로 정밀하게 예측해 기상재해 대비를 혁신하려는 과제에서는 30초 주기로 1.7TB(테라바이트)에 달하는 데이터를 생성하고 동일한 규모의 관측 데이터를 센서로부터 가져와 비교·분석해야 한다.

아직 세부 설계가 완료되지 않아 구체적인 내용을 확인하기는 어렵지만 수치 가속기를 사용하지 않고 CPU만 사용한 ‘멀티코어 방법’을 따르는 것으로 알려져 있다. 시스템의 구조는 K 컴퓨터를 기반으로 이를 개선한 형태가 될 것으로 추측된다. 또한 연산 능력은 전력 소모 등의 제약으로 엑사급에 미치지 못할 것으로 추정된다.
‘초당 100경 회 연산’, 엑사급 슈퍼컴 개발 경쟁
(사진) 한국전자통신연구원(ETRI) 연구원이 슈퍼컴퓨터 ‘마하’를 이용해 유전체를 분석하고 있다.

◆‘슈퍼컴 종주국’ 미국… ‘현존 최고 슈퍼컴 보유국’ 중국

다음으로 슈퍼컴의 종주국이라고 할 수 있는 미국의 사례를 살펴보자.

버락 오바마 미국 대통령은 2015년 7월 슈퍼컴 기술을 국가 경쟁력 향상과 과학 발전에 최대한 활용하기 위해 슈퍼컴의 연구·개발·구축·활용을 아우르는 국가 전략 컴퓨팅 계획(National Strategic Computing Initiative)을 발표했다. 이 계획은 민간 및 학계와 협력을 통해 범정부 차원으로 진행된다.

이 계획의 특이한 점은 전통적으로 강조해 온 연산 능력 외에 데이터 관련 능력도 함께 갖추기 위해 아키텍처·소프트웨어·프로그램 방법 및 관련 도구 등에 대한 연구·개발이 진행된다는 것이다. 현재까지 슈퍼컴과 빅 데이터의 생태계가 별도로 존재하는 것을 고려하면 시스템 설계 방향의 커다란 전환을 엿볼 수 있는 부분이다.

백악관의 과학기술정책실 및 예산관리실이 주도하는 집행위원회가 이 사업을 주관한다. 또한 에너지부·국방부·과학재단이 시스템 개발을 주도하고 정보고등연구기획국(IARPA) 및 국립표준기술연구소(NIST)가 기반 연구 및 첨단 측정 방법을 담당해 미국항공우주국(NASA)·미국연방수사국(FBI)·미국국립보건원(NIH) 등이 개발된 시스템을 구축 운영하게 된다.

이 사업으로 구축되는 시스템은 어떤 모습일까. 에너지부 보고서에 따르면 200~300개의 캐비닛으로 구성되며 연산 능력은 1~10EF, 내부 메모리는 128~256페타바이트(PB)로 약 20MW의 전력을 소모한다.

시스템에 대한 보다 자세한 정보는 2017년 전후를 목표로 구축이 진행되고 있는 CORAL(Collaboration of Oak Ridge, Argonne, Livermore) 시스템에서 추정할 수 있다.

현재 3개 시스템이 구축되고 있고 오크리지 국립연구소에 설치될 ‘서밋(Summit)’은 현재 미국 최고 슈퍼컴 ‘타이탄’의 5배 규모이고 로렌스 리버모어 국립연구소에도 유사한 규모의 ‘시에라(Sierra)’가 설치될 예정이다.

이 두 시스템은 IBM이 주 사업자로 ‘가속기 방법’의 형태다. 또 아르곤 국립연구소에 설치될 ‘오로라(Aurora)’는 규모가 가장 클 것으로 예상되며 ‘매니코어 방법’을 채택한 인텔 시스템이다.

현재 세계 최고의 슈퍼컴을 보유한 중국은 발표된 계획은 없지만 연구·개발이 꾸준히 지속되고 있다. 올해 안에 100PF 규모의 시스템을 2개 구축할 것이고 그중 하나는 CPU 등 핵심 부품에 중국 독자 기술을 적용할 것으로 예상된다.