
2023년 5월 30일, 컴퓨텍스 – AI 컴퓨팅 기술 분야의 선두주자인 엔비디아는 엔비디아 GH200 그레이스 호퍼(Grace
Hopper) 슈퍼칩 양산에 돌입했다고 발표했다. 이를 통해 복잡한 AI와 고성능 컴퓨팅(HPC) 워크로드를 실행하기 위한 전 세계 시스템을
지원할 예정이다.


GH200 기반 시스템은 엔비디아 그레이스(Grace), 엔비디아 호퍼(Hopper), 엔비디아 에이다 러브레이스(Ada
Lovelace), 엔비디아 블루필드(BlueField)를 포함한 엔비디아의 최신 CPU 및 GPU 아키텍처를 기반으로 하는 400개 이상의
시스템 구성에 추가되어, 급증하는 생성형 AI에 대한 수요를 충족하도록 지원한다.

엔비디아 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 엔비디아 NVLink-C2C 인터커넥트 기술을 사용하여, Arm 기반
엔비디아 그레이스 CPU와 호퍼 GPU 아키텍처를 결합한 GH200 그레이스 호퍼 슈퍼칩에 대한 새로운 시스템, 파트너, 추가 세부 정보를
공개했다. 이 슈퍼칩은 최대 900GB/s의 총대역폭을 제공하는데, 이는 기존 가속 시스템에서 볼 수 있는 표준 PCIe Gen5 레인보다 7배
더 높은 대역폭으로 가장 까다로운 생성형 AI 및 HPC 애플리케이션을 처리할 수 있는 놀라운 컴퓨팅 기능을 제공한다.
엔비디아의 가속 컴퓨팅 부문 부사장인 이안 벅(Ian Buck)은 "생성형 AI는 헬스케어, 금융, 비즈니스 서비스를 포함한 많은 산업에서
비즈니스를 빠르게 변화시키고 새로운 기회를 열며 발견을 가속화하고 있다"며, “그레이스 호퍼 슈퍼칩의 양산으로, 전 세계 제조업체는 기업들이
고유한 자체 데이터를 활용하는 생성형 AI 애플리케이션을 구축하고 배포하는 데 필요한 가속화된 인프라를 곧 제공할 수 있을 것"이라고 말했다.

유럽과 미국의 글로벌 하이퍼스케일러와 슈퍼컴퓨팅 센터는 GH200 기반 시스템에 액세스할 수 있는 여러 고객 중 일부다.
수백 개의 가속 시스템과 클라우드 인스턴스
최신 엔비디아 기술 기반 시스템을 도입하는 전 세계의 여러 시스템 제조업체 중에는 애온(AAEON), 어드밴텍(Advantech),
에티나(Aetina), 애즈락랙(ASRock Rack), 에이수스(ASUS), 폭스콘 인더스트리얼 인터넷(FII), 인벤텍(Inventec),
페가트론(Pegatron), QCT, 타이안(Tyan), 위스트론(Wistron), 위윈(Wiwynn)과 같은 대만 제조업체들이 있다. 이
기업들은 모두 젠슨 황의 컴퓨텍스 기조연설에서 주요 파트너로 소개됐다.
또한 글로벌 서버 제조업체인 시스코(Cisco), 델 테크놀로지스(Dell Technologies), 기가바이트(GIGABYTE), 휴렛팩커드
엔터프라이즈(Hewlett Packard Enterprise), 레노버(Lenovo), 슈퍼마이크로(Supermicro), 아토스(Atos)
자회사인 에비든(Eviden)은 다양한 엔비디아 가속 시스템을 제공하고 있다.
엔비디아 H100의 클라우드 파트너로는 아마존웹서비스(AWS), 시라스케일(Cirrascale), 코어위브(CoreWeave), 구글
클라우드(Google Cloud), 람다(Lambda), 마이크로소프트 애저(Microsoft Azure), 오라클 클라우드
인프라스트럭처(Oracle Cloud Infrastructure), 페이퍼스페이스(Paperspace), 벌쳐(Vultr)가 있다.
엔비디아 L4 GPU는 구글 클라우드에서 비공개 프리뷰로 제공된다.
가속화된 시스템 전반에 대한 풀스택 컴퓨팅
엔비디아 그레이스, 호퍼, 에이다 러브레이스 아키텍처로 가속되는 시스템 포트폴리오는 엔비디아 AI, 엔비디아 옴니버스(Omniverse)
플랫폼, 엔비디아 RTX 기술을 포함하는 엔비디아 소프트웨어 스택에 대한 광범위한 지원을 제공한다. 엔비디아 AI 플랫폼의 소프트웨어 계층인
엔비디아 AI 엔터프라이즈(AI Enterprise)는 100개 이상의 프레임워크, 사전 훈련된 모델 및 개발 도구를 제공하여 생성형 AI,
컴퓨터 비전 및 음성 AI를 포함한 프로덕션 AI의 개발 및 배포를 간소화한다.
메타버스 애플리케이션 구축 및 운영을 위한 엔비디아 옴니버스 개발 플랫폼을 통해, 개발자들은 여러 소프트웨어 제품군에서 작업하고 공유 환경에서
실시간으로 협업할 수 있다. 이 플랫폼은 가상 세계를 위한 개방적이고 확장 가능한 3D 언어인 USD(Universal Scene
Description) 프레임워크를 기반으로 한다.
엔비디아 RTX 플랫폼은 레이 트레이싱, 딥 러닝, 래스터화를 융합하여 업계 최고의 툴과 API 지원을 통해 콘텐츠 제작자와 개발자를 위한
크리에이티브 프로세스를 근본적으로 변화시키고 있다. RTX 플랫폼에 구축된 애플리케이션은 사실적인 실시간 렌더링과 AI로 향상된 그래픽, 비디오
및 이미지 처리 기능을 제공하여 수백만 명의 디자이너와 아티스트가 최고의 작품을 만들 수 있도록 돕는다.
GH200 슈퍼칩이 탑재된 시스템은 하반기부터 출시될 예정이다.

또한, 엔비디아는 전 세계 데이터센터의 다양한 가속 컴퓨팅 요구에 부응하기 위한 엔비디아 MGX 서버 사양을 발표했다. 해당
사양은 시스템 제조사에 모듈식 참조 아키텍처를 제공해 인공지능, 고성능 컴퓨팅(high performance computing, 이하 HPC),
옴니버스(Omniverse) 애플리케이션에 맞는 다양한 서버 변형을 빠르고 경제적으로 구축할 수 있게 한다.
애즈락랙(ASRock Rack), 에이수스(ASUS), 기가바이트(GIGABYTE), 페가트론(Pegatron), QCT,
슈퍼마이크로(Supermicro)는 MGX를 도입해 개발 비용을 최대 3/4 줄이고, 개발 시간도 2/3 줄여 6개월까지 단축할 수 있을
전망이다.
엔비디아의 GPU 제품 담당 부사장인 카우츠브 상하니(Kaustubh Sanghani)는 “기업들은 특정 비즈니스와 애플리케이션 요구에 맞는
데이터센터를 설계할 때 더 많은 가속 컴퓨팅 옵션을 찾는다. 고객들이 기업용 AI를 부트스트랩(bootstrap) 하는 데 있어 상당한 시간과
비용을 절약할 수 있도록 도움을 주고자 MGX를 개발했다”고 말했다.
제조사는 MGX를 통해 서버 섀시의 가속 컴퓨팅에 최적화된 기본 시스템 아키텍처로 시작한 다음, GPU, DPU, CPU를 선택할 수 있다.
설계 변형은 HPC, 데이터 사이언스, 대규모 언어 모델(LLM), 엣지 컴퓨팅, 그래픽 및 비디오, 기업용 AI, 설계 및 시뮬레이션과 같은
고유한 워크로드를 처리할 수 있다. AI 훈련, 5G와 같은 여러 작업을 단일 시스템에서 처리할 수 있으며, 손쉽게 차세대 하드웨어로
업그레이드할 수 있다. MGX는 또한 클라우드, 엔터프라이즈 데이터센터에 쉽게 통합될 수 있다.
업계 선도 기업들과의 협업
QCT와 슈퍼마이크로는 8월에 공개되는 MGX 설계를 적용한 제품을 최초로 시장에 출시하는 기업이다. 이번에 발표된 슈퍼마이크로의
ARS-221GL-NR 시스템에는 엔비디아 그레이스(Grace) CPU 슈퍼칩(Superchip)이 포함되며, QCT의 S74G-2U 시스템에는
엔비디아 GH200 그레이스 호퍼(Grace Hopper) 슈퍼칩이 포함될 예정이다.
또한, 소프트뱅크(SoftBank Corp.)는 일본 전역에 여러 하이퍼스케일 데이터센터를 구축하고 MGX를 사용하여 생성형 AI와 5G
애플리케이션 간에 GPU 리소스를 동적으로 할당할 계획이다.
소프트뱅크의 사장 겸 CEO인 미야카와 준이치(Miyakawa Junichi)는 “생성형 AI가 비즈니스 및 소비자 라이프스타일 전반에 걸쳐
확산됨에 따라, 적절한 비용으로 적합한 인프라를 구축하는 것은 네트워크 사업자의 가장 큰 과제 중 하나다. 엔비디아 MGX를 통해 이러한 과제를
해결하고 실시간 워크로드 요구사항에 따라 AI, 5G 등을 다용도로 사용할 수 있을 것으로 기대한다”고 말했다.

다양한 요구에 맞는 다양한 설계
데이터센터는 점점 증가하는 컴퓨팅 기능 및 기후 변화에 대처하기 위한 탄소 배출량 감소 요구사항을 충족하면서 동시에 비용은 절감해야 하는 압박을
받고 있다.
엔비디아의 가속 컴퓨팅 서버는 오랫동안 뛰어난 컴퓨팅 성능과 에너지 효율성을 제공해 왔다. 시스템 제조사는 이제 MGX의 모듈식 설계를 통해 각
고객의 고유한 예산, 전력 공급, 열 설계, 기계적 요구사항을 보다 효과적으로 충족할 수 있다.
다양한 폼팩터로 최대의 유연성 제공
MGX는 다양한 폼팩터에서 작동하며 다음과 같은 현재 및 미래 세대의 엔비디아 하드웨어와 호환된다.
⦁ 섀시: 1U, 2U, 4U(공냉식 또는 수냉식)
⦁ GPU: 최신 H100, L40, L4를 포함한 엔비디아 GPU 전체 포트폴리오
⦁ CPU: 엔비디아 그레이스 CPU 슈퍼칩, GH200 그레이스 호퍼 슈퍼칩, x86 CPUs
⦁ 네트워킹: 엔비디아 블루필드(BlueField)-3 DPU, 커넥트X(ConnectX)-7 네트워크 어댑터
MGX는 엔비디아 제품과의 유연한 다세대 호환성을 제공해 시스템 빌더가 기존 설계를 재사용하고 고가의 재설계 없이 차세대 제품을 쉽게 채택할 수
있도록 하며, 이러한 호환성은 엔비디아 HGX와의 가장 큰 차이점이다. 반면 HGX는 최고 수준의 AI 및 HPC 시스템을 만들기 위해 확장
가능하도록 맞춤화된 NVLink로 연결된 다중 GPU 베이스보드를 기반으로 한다.
가속화를 더욱 촉진하는 소프트웨어
MGX는 하드웨어 외에도 개발자와 기업이 AI, HPC, 기타 애플리케이션을 구축하고 가속화할 수 있는 엔비디아의 전체 소프트웨어 스택에서
지원된다. 여기에는 엔비디아 AI 플랫폼의 소프트웨어 계층인 엔비디아 AI 엔터프라이즈(Enterprise)가 포함된다. 엔비디아 AI
엔터프라이즈는 100개 이상의 프레임워크, 사전 훈련된 모델, 개발 도구를 통해 AI 및 데이터 사이언스를 가속, 완벽하게 지원되는 기업용 AI
개발 및 배포를 제공한다.
MGX는 오픈 컴퓨트 프로젝트(Open Compute Project)와 미국전자산업협회(Electronic Industries Alliance)
서버 랙과 호환돼 엔터프라이즈 및 클라우드 데이터센터에 빠르게 통합될 수 있다.

이어어서 엔비디아가 엔비디아 스펙트럼-X™(NVIDIA Spectrum-X™)를 출시한다고 발표했다. 스펙트럼-X는 이더넷 기반 AI
클라우드의 성능과 효율을 개선하도록 고안된 가속 네트워킹 플랫폼이다.
엔비디아 스펙트럼-X는 엔비디아 스펙트럼-4 이더넷 스위치와 엔비디아 블루필드®-3(BlueField®-3) DPU를 결합한 네트워킹 혁신을
기반으로 구축된다. 이로써 전반적인 AI 성능과 전력 효율이 1.7배 개선됐으며, 멀티 테넌트 환경에서 지속적이고 예측 가능한 성능을 제공한다.
또한 엔비디아 가속 소프트웨어와 소프트웨어 개발 키트(SDK)에 힘입어 소프트웨어 정의, 클라우드 네이티브의 AI 애플리케이션 구축이 가능하다.
또한 엔드 투 엔드 기능은 거대한 트랜스포머 기반 생성형 AI 모델들의 실행 시간을 단축한다. 이를 통해 네트워크 엔지니어와 AI 데이터
과학자, 클라우드 서비스 제공업체들은 결과를 개선하고 정보에 입각한 결정을 더욱 신속히 내릴 수 있게 된다.
세계 최고의 하이퍼스케일러(hyperscaler)와 업계를 선도하는 클라우드 혁신가들이 엔비디아 스펙트럼-X를 채택하고 있다.
엔비디아는 스펙트럼-X 레퍼런스 디자인의 청사진과 시험대 역할을 할 이스라엘-1(Israel-1)을 개발 중이다. 이스라엘 데이터센터에 구축될
하이퍼스케일 생성형 AI 슈퍼컴퓨터인 이스라엘-1은 엔비디아 HGX™ H100 8-GPU 플랫폼과 블루필드-3 DPU, 스펙트럼-4 스위치
기반의 델 파워엣지(Dell PowerEdge) XE9680 서버들에 배포될 예정이다.
엔비디아의 네트워킹 부문 수석 부사장인 길라드 샤이너(Gilad Shainer)는 “생성형 AI처럼 혁신적인 테크놀로지 앞에서 기업들은
데이터센터 성능의 한계를 극복하고 경쟁 우위를 차지하려는 노력을 계속할 수밖에 없다. 엔비디아 스펙트럼-X는 차원이 다른 이더넷 네트워킹으로
차세대 AI 워크로드를 가로막는 장벽을 제거해 산업 전체를 혁신할 잠재력을 가졌다”고 강조했다.

엔비디아 스펙트럼-X 네트워킹 플랫폼은 각종 AI 애플리케이션에 다목적으로 응용될 수 있다. 표준에 완벽히 기반한 이더넷을 사용하며,
이더넷 기반 스택들과 상호 운용도 가능하다.
이 플랫폼의 시작은 세계 최초의 51Tb/sec 이더넷 스위치로 AI 네트워크를 위해 특별히 구축된 스펙트럼-4다. 고급 RoCE 확장 기능들이
스펙트럼-4 스위치와 블루필드-3 DPU, 엔비디아 LinkX 옵틱스에서 함께 작동해 AI 클라우드에 최적화된 엔드 투 엔드의 400GbE
네트워크를 생성한다.
엔비디아 스펙트럼-X는 성능의 격리로 멀티 테넌시를 강화하고 테넌트의 AI 워크로드가 최적의 상태를 유지하며 실행되도록 보장한다. 또한 성능
병목 현상을 식별하고 완전히 자동화된 패브릭 검증 기능을 제공해 AI 성능의 가시성(visibility)을 개선한다.
스펙트럼-X를 구동하는 가속 소프트웨어로 큐물러스 리눅스(Cumulus Linux)와 소닉(SONiC), 네트Q(NetQ) 등의 강력한 엔비디아
SDK가 포함돼 네트워킹 플랫폼의 성능을 극대화한다. 또한 블루필드 DPU의 핵심에 해당하는 엔비디아 DOCA™ 소프트웨어 프레임워크도 포함돼
있다.
엔비디아 스펙트럼-X는 단일 스위치로 연결된 200Gb/s 포트 256개, 또는 이중 리프-스파인(leaf-spine) 토폴로지 1개 내 포트
16,000개 연결이라는 전례 없는 규모로 AI 클라우드의 성장과 확장을 지원하는 동시에 높은 수준의 성능을 유지하고 네트워크 레이턴시를
최소화한다.
발빠른 생태계 확장
델 테크놀로지스(Dell Technologies)와 레노버(Lenovo), 슈퍼마이크로(Supermicro) 등의 기업이 엔비디아 스펙트럼-X를
제공한다.
엔비디아 스펙트럼-X와 스펙트럼-4 스위치, 블루필드-3 DPU, 400G LinkX 옵틱스는 지금 사용 가능하다.