서버와 GPU 성능이 아무리 빨라져도 전력 사용량 및 장비 교체 등 운영비용(OPEX: Operating Expenditure)이 발목을 잡기 때문이다.
16일 반도체 업계에 따르면 이제 기업들의 관심은 단순한 속도가 아니라 같은 성능을 더 낮은 비용으로 구현하는 효율성 경쟁으로 옮겨가고 있다.
국제에너지기구(IEA)는 전 세계 데이터센터 전력 소비가 2030년까지 두 배 이상 증가할 것으로 전망했다.
이는 데이터센터 건설 및 서버 장비 구매 등 초기 자본지출(CAPEX) 보다 운영비용(OPEX)을 얼마나 줄이느냐가 기업들의 총 소유비용(TCO, Total Cost of Ownership)을 줄이는 핵심 요소로 주목받고 있음을 보여준다.
데이터센터를 운영하는 기업들은 까다로운 AI 워크로드를 소화하는 동시에 전력 효율 · 공간 활용 · 예산 관리 · 지속가능성을 균형 있게 달성해야 한다.
같은 인프라에서 더 높은 성능과 효율을 끌어내는 ‘운영 최적화 기술’이 시장 판도를 바꿀 열쇠라는 점에서 메모리 및 시스템반도체 기업들은 각자의 해법을 내놓고 있다.
먼저 데이터센터 운영비에서 냉각이 차지하는 비중은 전체 전력 사용량의 최대 40%에 달한다. 인공지능(AI) 서버의 전력 밀도가 높아질수록 냉각 효율화는 TCO 절감의 핵심 과제로 꼽힌다.
삼성전자는 고대역폭 메모리(HBM3E)·더블데이터레이트(DDR5) 등 고성능 메모리로 데이터 처리 효율을 높이는 동시에 독일 공조 전문기업 플랙트그룹(FläktGroup)을 인수해 액체냉각 및 공조시스템(HVAC) 역량까지 확보했다.
데이터 이동 효율과 냉각비 절감을 동시에 달성해 고객사의 TCO를 낮추는 솔루션 전략으로 풀이된다.
데이터센터에서 스토리지는 전체 서버 랙(Rack) 수와 직결돼 공간·전력·인력 비용에 영향을 준다.
ICT 시장조사기관 인터내셔널 데이터 코퍼레이션(IDC, International Data Corporation) 조사에 따르면 스토리지 밀도를 높이면 서버 랙(당 전력 비용을 최대 30%까지 줄일 수 있다.
이를 적용한 SK하이닉스는 세계 최초로 12단 HBM3E 36GB를 양산하고 자회사 솔리다임(Solidigm)을 통해 대용량 122TB eSSD를 선보였다. 동일한 용량을 기존보다 적은 서버 랙으로 구성할 수 있어 공간 및 전력 비용을 줄이고 운영 효율을 높인다.
TCO를 높이는 원인으로는 장비교체도 큰 비중을 차지한다. 솔리드 스테이트 드라이브(SSD)의 쓰기증폭(Write Amplification) 현상은 전력 소모와 발열 증가뿐 아니라 장비 교체 주기를 앞당겨 비용부담이 증가한다.
우리나라 시스템 반도체 분야를 선도하고 있는 팹리스 기업 파두(FADU)는 SSD 컨트롤러 기술인 FDP(Flexible Data Placement)로 SSD 안에 사용자 전용 저장공간을 따로 구획해 쓰기증폭을 최소화하고 SSD의 수명과 성능을 동시에 개선했다.
이는 장비 교체 주기를 늦추고 전력·발열 문제를 줄여 운영비용을 낮추는 효과를 가져온다. 특히 엔비디아의 최신 AI GPU 아키텍처 블랙웰(Blackwell)에 탑재된 것으로 알려져 기술력을 입증했다.
데이터센터 산업은 이제 ‘더 빠른 칩’ 보다 ‘더 효율적인 시스템’을 요구한다. 전력·냉각·스토리지 교체 주기를 최적화하는 TCO 절감 기술력이 곧 경쟁력인 시대가 됐다.
반도체 업계 관계자 “앞으로의 AI 데이터센터의 승자는 비용 구조를 혁신해 고객에게 지속 가능한 효율을 제공하는 기업에게 돌아갈 것”이라고 밝혔다.
정유진 기자 jinjin@hankyung.com
© 매거진한경, 무단전재 및 재배포 금지