Nvidia의 연간 출시 흐름은 Intel, AMD에 골칫거리입니다. • The Register

CChatGPT8
9 Min Read

[ad_1]

분석 생성 AI의 잠재력을 활용하기 위한 미친 돌진에서 Nvidia는 2분기에만 전년 대비 매출이 두 배 이상 증가하면서 확실한 승자로 남았습니다. 이러한 선두를 확보하기 위해 GPU 거대 기업은 새로운 가속기 개발 속도를 높일 계획인 것으로 보입니다.

지난 몇 세대 동안에는 2년의 주기만으로도 경쟁 우위를 유지하기에 충분했습니다. 하지만 슬라이드에 따르면 [PDF] 이번 달 초 투자자 프레젠테이션에서 우리는 B100뿐만 아니라 Arm 코어와 Blackwell 아키텍처를 결합한 새로운 “슈퍼 칩”과 L40 및 L40S를 대체하는 제품도 볼 수 있습니다.

전혀 놀라운 일이 아닙니다. 우리 모두는 2024년 언젠가 Nvidia의 차세대 아키텍처와 다양한 형태의 B100에 대해 듣게 될 것으로 예상했습니다.

그 다음에 나오는 것이 놀랍습니다.

이번 달에 발표된 투자자 프레젠테이션에 따르면 Nvidia는 1년 릴리스 주기로 전환할 계획입니다.

이번 달에 발표된 투자자 프레젠테이션에 따르면 Nvidia는 출시 주기를 2년에서 1년으로 전환할 계획입니다(확대하려면 클릭).

슬라이드는 Nvidia가 1년 릴리스 주기로 전환할 것임을 시사합니다. 슬라이드에서 우리는 Blackwell 기반 B100과 그 동시 제품이 2025년에 “X100” 클래스 부품으로 대체될 것임을 알 수 있습니다. 여기서 “X”는 자리 표시자라고 가정하고 Huang은 아키텍처를 전담할 수학자, 컴퓨터 과학자 또는 엔지니어를 고민합니다. 그러나 요점은 여전히 ​​남아 있습니다. Nvidia는 그 어느 때보다 빠르게 새로운 GPU를 출시할 계획입니다.

이는 Intel과 AMD에 무엇을 의미합니까?

이러한 변화는 여전히 GPU 및 AI 가속기의 출시 기간이 2년인 AMD 및 Intel과 같은 공급업체에 잠재적인 문제를 제기합니다.

예를 들어, AMD는 Nvidia의 A100 이후 약 1년 후에 Instinct MI200 시리즈 가속기를 출시하여 Nvidia의 희박성 지원을 무시하는 한 훨씬 더 나은 배정밀도 성능과 이에 필적하는 FP16 FLOPS를 주장했습니다.

전자는 A100에 비해 고성능 컴퓨팅 애플리케이션에서 회사에 확실한 이점을 제공했기 때문에 유럽의 Lumi 또는 에너지부의 Frontier 슈퍼컴퓨터와 같은 슈퍼컴퓨터에서 그렇게 인기 있는 부품이 된 것은 놀라운 일이 아닙니다.

이제 생성적 AI가 수요를 앞지르면서 AMD는 낮은 정밀도의 워크로드에 맞게 조정된 GPU와 APU를 통해 AI 분야에서 Nvidia의 지배력에 도전하기를 희망합니다. 하지만 우리 형제 사이트인 MI300A/X에 대한 성능 추정이 차세대 플랫폼 AMD의 최신 칩은 FLOPS에서 H100과 경쟁할 수는 없지만 메모리 측면에서는 이점을 가질 수 있습니다. 이 칩은 128GB~192GB의 HBM3 메모리를 제공할 예정이며, 이는 H100에 비해 칩의 우위를 점할 수 있습니다.

지난 9월 혁신 컨퍼런스에서 AI를 크게 다루었던 인텔도 비슷한 상황에 처해 있다. 회사는 이미 CPU 및 GPU에 대한 가속화된 출시 흐름을 채택했지만 부서 구조 조정 및 비용 절감 조치로 인해 후자를 철회했습니다.

이 결정으로 인해 XPU CPU-GPU 아키텍처와 Argonne National Lab의 Aurora 슈퍼컴퓨터를 지원하는 Ponte Vecchio 가속기의 후속 제품인 Rialto Bridge가 모두 취소되었습니다. 그런 다음 회사는 재정의된 Falcon Shores 설계를 2024년에서 2025년으로 연기했으며, 이러한 움직임은 “신제품 출시에 대한 고객의 기대와 일치하고 생태계를 개발할 시간을 허용한다”고 주장했습니다.

후자는 Intel이 GPU Max와 Habana Labs 아키텍처를 단일 플랫폼으로 가져올 것이라는 점에서 흥미롭습니다. 그때까지 우리는 Gaudi3가 출시될 때까지 Intel의 Gaudi2 및 GPU Max 제품군에 갇혀 있습니다.

Gaudi2는 A100에 비해 상당한 성능을 보여줬지만, 작년에 출시될 당시 Nvidia의 더 뛰어난 성능을 자랑하는 H100이 이미 발표되었으며 출시까지 몇 달 남았습니다.

Habana의 차세대 가속기인 Gaudi3는 유망해 보이지만 H100 및 AMD의 MI300 시리즈 부품보다 성능이 뛰어날 뿐만 아니라 임박한 Nvidia의 B100 가속기 출시에도 맞서 싸워야 합니다.

이것은 MI300이나 Gaudi3가 반드시 도착하자마자 죽게 될 것이라는 의미는 아니며, 오히려 이들의 관련성 창은 과거보다 훨씬 짧아질 수 있다고 SemiAnalytic 창립자 Dylan Patel은 말했습니다. 가속화된 로드맵 레지스터.

그는 “MI300이 시장 최고의 칩이 될 가능성이 있다”고 말하면서 우리가 Intel의 Gaudi3에 대해 거의 알지 못하지만 그가 기대하는 대로 확장된다면 Nvidia의 H100보다 더 나을 것이라고 덧붙였습니다. .

장기적으로 그는 Intel과 AMD가 이에 따라 자체 GPU 및 가속기 개발 로드맵을 가속화해야 할 것으로 예상합니다.

그리고 과거에 지적했듯이 Intel과 AMD의 차세대 가속기가 Nvidia를 이길 수 없더라도 가용성에만 기초하여 승리를 거둘 수도 있습니다. Nvidia의 H100은 TSMC가 제공하는 고급 패키징 기술의 가용성으로 인해 제약을 받고 있는 것으로 알려졌습니다. 이러한 부족 현상은 2024년까지 해결되지 않을 것으로 예상됩니다. AMD는 이러한 고급 포장 기술을 활용하는 MI300 시리즈 부품에서도 유사한 문제에 직면할 가능성이 높지만 Intel은 자체 포장을 수행할 수 있는 능력을 갖추고 있습니다. Gaudi3가 실제로 이를 사용하는지, 아니면 Nvidia 및 AMD와 같은 보트에 있는지 명확하게 확인하세요.

액셀러레이터 뿐만 아니라

그러나 Nvidia가 단지 가속기의 출시 흐름을 가속화하는 것이 아니라는 점은 주목할 가치가 있습니다. 또한 Quantum Infiniband 및 Spectrum 이더넷 스위칭 포트폴리오의 개발 속도도 가속화하고 있습니다.

단일 GPU만으로도 가능하지만 AI 교육 및 HPC 애플리케이션은 일반적으로 효율적으로 작동하기 위해 대규모 가속기 클러스터가 필요하며 이는 이를 따라잡을 수 있는 네트워킹이 있다는 것을 의미합니다.

2020년 오랜 파트너인 Mellanox를 인수하면서 Nvidia는 회사의 스위칭 및 NIC 포트폴리오를 포함하는 네트워크 스택을 제어하게 되었습니다.

현재 Nvidia의 가장 빠른 스위치는 Infiniband의 경우 25.6Tbps, 이더넷의 경우 51.2Tbps를 기록합니다. 해당 대역폭은 200~400Gbps 포트 묶음으로 나뉩니다. 그러나 이 새로운 릴리스 흐름에 따라 Nvidia는 포트 속도를 2024년에 800Gbps, 2025년에 1,600Gbps로 끌어올리는 것을 목표로 하고 있습니다.

이를 위해서는 51.2~102.4Tbps 용량 범위의 더 많은 기능을 갖춘 스위치 실리콘뿐만 아니라 1,600Gbps QSFP-DD 모듈을 지원하기 위해 더 빠른 200Gbps 직렬 변환기/직렬 변환기(SerDes)가 필요합니다.

이러한 수준의 네트워크 성능을 달성하는 데 필요한 기술은 이미 존재합니다. 200Gbps SerDes는 이미 Broadcom에서 시연되었습니다. 그러나 아직 Nvidia에서는 이를 확인하지 못했습니다. 그리고 이상적으로는 Nvidia가 800Gbps 지원 NIC를 실제로 활용하기 위해 Infiniband와 이더넷 모두에서 102.4Tbps에 도달하기를 원할 것이라고 Patel은 말합니다.

PCIe 문제

여기서 Nvidia의 마스터 플랜에 균열이 나타나기 시작할 수 있습니다. 이러한 더 높은 속도는 PCIe 제한으로 인해 기존 NIC를 사용하는 타임라인에서는 유지되지 않을 수 있습니다. 현재 NIC의 실제 제한은 단일 400Gbps 포트입니다. PCIe 6.0을 사용하면 800Gbps에 도달할 수 있지만 1,600Gbps에 대해 진지하게 이야기하려면 PCIe 7.0이 필요합니다.

우리는 Intel의 차세대 Xeon이 2024년에 출시될 때 PCIe 6.0을 지원하지 않을 것이라는 것을 이미 알고 있으며 AMD의 곧 출시될 Turin Epycs에 대해 지원할지 여부를 말할 만큼 충분하지 않습니다. AMD는 지난 몇 세대 동안 Intel이 새로운 PCIe 표준 출시를 주도해 왔습니다.

그러나 x86이 Nvidia의 유일한 선택은 아닙니다. 이 회사는 현재 자체 Arm 기반 CPU를 보유하고 있습니다. 따라서 Nvidia는 Grace의 후속 제품에서 PCIe 6.0을 지원할 계획입니다. Arm 프로세서는 2022년 초에 최초로 PCIe 5.0에 대한 지원을 추가한 프로세서 중 하나이므로 이러한 일이 다시 발생할 수 있다고 믿을 만한 이유가 있습니다.

이 문제로 인해 Patel은 B100이 실제로 두 가지 버전이 있을 것으로 예상하고 있습니다. PCIe 5.0을 사용하고 H100과 동일한 700와트 열 설계 전력(TDP)을 제공하므로 고객은 새로운 HGX 마더보드를 기존 섀시 설계에 장착할 수 있습니다. 두 번째는 훨씬 더 높은 전력을 사용하고 액체 냉각이 필요하며 PCIe 6.0으로 전환할 것이라고 그는 생각합니다.

그러나 Nvidia가 2025년에 출시하려고 하는 것처럼 1,600Gbps 포트에 대해 이야기하기 시작하면 아직 확정되지 않은 PCIe 7.0이 필요할 것입니다. “표준 기관과 이야기하면, 누구도 이르면 2026년까지 제품에 대해 PCIe 7.0을 기대하지 않습니다.”라고 그는 말했습니다. “그 시간표에서는 불가능합니다.”

다른 옵션은 PCIe 버스를 우회하는 것입니다. Patel이 지적했듯이 Nvidia는 실제로 GPU와 CPU 사이, NIC와 GPU 사이에만 PCIe 6.0 또는 PCIe 7.0 수준의 대역폭이 필요하지 않습니다. 그래서 그는 Nvidia가 병목 현상으로 인해 CPU를 크게 우회할 것으로 예상합니다.

실제로 Nvidia는 이미 이 작업을 어느 정도 수행하고 있습니다. 최근 세대에서 Nvidia는 PCIe 스위치를 사용하여 ConnectX NIC에서 GPU를 효과적으로 데이지 체인 방식으로 연결했습니다. Patel은 Nvidia가 단일 PCIe 5.0 또는 PCIe 6.0 x16 슬롯이 수용할 수 있는 것보다 더 높은 포트 속도를 달성하기 위해 이 접근 방식을 확장할 가능성이 있다고 말합니다.

그리고 X100 세대에서는 Nvidia가 독점 상호 연결을 위해 2025년 X100의 NIC와 GPU 간의 통신을 위해 PCIe를 버릴 것이라는 소문이 있다고 말했습니다.

말하자면, Nvidia의 AI 개발에 관심을 기울여온 사람들은 칩 제조업체의 초고대역폭 NVLinks 패브릭이 어디에 적합한지 궁금할 것입니다. 이 기술은 여러 GPU를 서로 결합하여 효과적으로 하나의 큰 GPU처럼 작동하는 데 사용됩니다. NVLink 스위치를 추가하면 여러 노드로 확장할 수 있습니다.

그러나 NVLink에는 특히 도달 범위 및 확장성과 관련하여 몇 가지 중요한 제한 사항이 있습니다. NVLink는 두 가지보다 훨씬 빠르지만 256개의 장치로 제한됩니다. 이 이상으로 확장하려면 Infiniband 또는 이더넷을 사용하여 추가 클러스터를 함께 연결해야 합니다.

NVLink 메시는 GPU 간 통신에만 적합합니다. 시스템 안팎으로 데이터를 가져오거나 작업 부하를 조정하는 데는 도움이 되지 않습니다.

결과적으로 Nvidia가 출시 일정을 단축하는 데 성공했는지 여부는 칩이 질식하지 않을 만큼 빠르게 네트워킹을 확장하는 데 크게 좌우될 것입니다. ®

더 필요하신가요? Nvidia의 청사진에 대한 The Next Platform의 견해를 확인해 보세요.

Share this Article
Leave a comment

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다