
오늘 새벽 GTC 2024 키노트를 진행한 엔비디아가 새로운 Ai 프로세서, 코드명
블랙웰을 공개했다.
엔비디아 CEO, 젠승 황의 진행으로 시작된 GTC 2024 키노트는 Ai 시대의 현재와
미래 뿐만 아니라 다양한 산업에서 활용되는 엔비디아의 최신 기술들이 소개되었으며
이런 변화를 이끌어갈 새로운 프로세서로 코드명 블랙웰이 소개됐다.
블랙웰 GPU는 앞서 유출된 정보대로 2개의 다이가 칩 투 칩 링크로 연결된 칩렛
구조로 확인됐다. 2개의 칩은 초당 10테라바이트의 속도로 연결되며 단일 통합 GPU로
동작한다. GPU 다이는 맞춤형 4NP TSMC 공정으로 생산되며 이렇게 연결된 다이에
총 2,080억 개의 트랜지스터가 탑재됐다.
지난해 출시된 AMD의 Mi300X가 1530억 개의 트랜지스터를 탑재한 것과 비교하면
35%나 많은 것이며 공정도 5nm 보다 더 발전된 공정이다. 대신, 실제 다이 면적은
확인되지 않아 크기 비교는 어려운 상태다.

블랙웰 GPU의 기본 구조는 호퍼 아키텍쳐를 계승하지만 2세대 트랜스포머 엔진이
탑재된 것으로 소개됐다. 새로운 마이크로 텐서 스케일링과 텐서 RT-LLM 및 NeMo
메가트론 프레임워크에 통합된 엔비디아의 고급 동적 범위 관리 알고리즘을 기반으로
새로운 4비트 부동 소수점 AI 추론 기능이 추가되었으며 이를 통해 컴퓨팅과 모델
크기를 두 배로 늘렸다고 한다.
엔비디아가 공개한 기본 성능 데이터로는 FP8 외에 FP6과 FP4가 추가되었으며
이중 FP4의 처리 능력이 FP8이나 FP6 보다 2배 증가한 것으로 나타났다. FP8과 FP6는
10 PFLOPS, FP4는 20 PFLOPS로 처리할 수 있다는 것이 엔비디아의 설명이다. 물론,
희소 연산을 사용한 결과이겠지만 같은 조건으로도 5229.8 TFLOPS가 한계인 AMD Mi300X
보다 2배나 높은 성능을 제공하게 됐다.
블랙웰의 세부 정보와 아키텍처 기술 문서 등은 추후 공개될 예정이며 이를 기반으로
설계된 DGX 클라우드 플래폼과 컴퓨트 트레이, NV링크 스위치 트레이 등이 공급될
예정으로 발표됐다.