август 27, 2025

Nvidia представи GB300 Blackwell Ultra – най-мощният AI ускорител с 20 480 CUDA ядра, 288GB HBM3E памет и PCIe 6.0

Nvidia публикува подробна информация за AI ускорителя GB300 Blackwell Ultra. Той се отличава от своя предшественик GB200 с увеличен брой ядра и размер на паметта, по-бърз интерфейс и по-висока мощност. В сърцето на Nvidia GB300 са два кристала с общо 208 милиарда транзистора – те са произведени по технологията TSMC 4NP и работят като един графичен процесор (GPU), благодарение на NV-HBI интерконектора със скорост 10 TB/s.

Графичният процесор съдържа 160 стрийминг мултипроцесора (Streaming Multiprocessors), всеки със 128 CUDA ядра – общо 20 480 ядра, както и тензорни ядра от пето поколение с поддръжка на FP8, FP6 и новия формат NVFP4. Всеки поточен мултипроцесор разполага с 256KB тензорна памет (TMEM) – общо 40MB. Осигурени са и допълнителни хардуерни блокове за трансцендентални изчисления и операции, оптимизирани за изчислителни ядра.

Паметта е организирана в осем 12-слойни стека HBM3E с общ капацитет от 288GB. Пропускателната способност на паметта на Nvidia GB300 е непроменена в сравнение с GB200 и е 8 TB/s, организирана в 16 канала по 512 бита всеки (8192-битов интерфейс). Увеличеният капацитет на паметта позволява целият AI модел може да бъде разположен на чипа, както и да се съхраняват големи количества кеш памет за ключове и стойности, без да се разтоварва на външни ресурси. TGP е увеличен до 1400 W.

Комуникацията между графичните процесори се осъществява чрез интерфейса NVLink 5 с двупосочна скорост на трансфер на данни от 1,8 TB/s в секунда за всеки графичен процесор. Комуникацията между графичния процесор и процесора на грацията се осъществява чрез интерфейса NVLink-C2C със скорост 900 GB/s и поддръжка на едно адресно пространство.

За свързване с хоста се използва PCIe 6.0 x16 шина с двупосочна пропускателна способност от 256 GB/s – първа за Nvidia. Ускорителите могат да бъдат инсталирани в стойката GB300 NVL72 със 72 графични процесора, до 20,7TB HBM3E памет и обща HBM пропускателна способност от 576 ТB/s. В една стойка има и 72 Grace Superchip Arm ядра и до 480GB LPDDR5X памет с пропускателна способност 512 GB/s.

NVFP4 е нов формат за данни с ниска прецизност, реализиран в тензорни ядра. Той осигурява точност, сравнима с FP8, но използва 1,8 пъти по-малко памет. Масовото производство на AI ускорителите Nvidia GB300 вече е започнало и първите клиенти са ги получили.

source

Сподели: