ноември 26, 2024

Ефективността на новите продукти на NVIDIA в класацията за суперкомпютри Green500 беше поставена под въпрос поради чиповете на AMD и… самата NVIDIA

Въпреки че ускорителите на NVIDIA са сред най-енергоемките в своя клас, базираните на фирмените чипове суперкомпютри все още доминират в световната класация за енергийна ефективност на съответните машини — Green500. Компанията обаче е изправена пред силна конкуренция от страна на AMD и не винаги е готова да се конкурира дори със собствените си продукти, съобщава The Register.

На пръв поглед лидерството на базираните на NVIDIA проекти е неоспоримо. Осем от десет суперкомпютри, включени в „ТОП 10“ енергийно ефективни машини, са базирани на NVIDIA чиповете, а пет от тях на 1000-ватовите хибридни суперускорители GH200, които са много популярни сред потребителите на HPC-решенията.

В новата класация Green500 на тяхна база са изградени първата и втората най-енергийноефективни системи — JEDI (EuroHPC) и Romeo-2025 (Romeo HPC Center). Във високопроизводителния бенчмарк Linpack те демонстрират производителност съответно от 72,7 Gflops/W и 70,9 Gflops/W (FP64).

Системите са почти идентични и са базирани на платформата BullSequana XH3000 на Eviden. Решението GH200 също така заема и четвърта, шеста и седма позиция в класацията: Isambard-AI Phase 1 (68,8 Gflops/W), Jupiter Exascale Transition Instrument (67,9 Gflops/W) и Helios (66,9 Gflops/W). Системите с тестваната NVIDIA H100 заемат пето, осмо и девето място — това са Capella, Henri и HoreKa-Teal.

Съществуват обаче и съмнения, че решенията на NVIDIA ще продължат да царуват в класацията. Решенията на Grace-Blackwell вече са на път във вид на GB200 (2,7 kW) и GB200 NVL4 (5,4 kW). Новите продукти не винаги осигуряват максимална производителност на ват консумирана енергия.

От A100 през 2020 г. до H100 през 2022 г., производителността (FP64) скочи до небето с около 3,5 пъти, но в сравнение с 1,2kW платформа Blackwell, 700W, H100 всъщност са по-бързи в режим FP64. Всъщност само “векторната математика“ (vector math) се подобри за FP64, където новите продукти бяха с 32% по-производителни.

С други думи, въпреки че днес NVIDIA може да се похвали с висока позиция в класацията Green500, решението, базирано на ускорителите AMD MI300A , вече зае трето място (Adastra 2). MI300A беше обявен преди малко по-малко от година, решението получи 24-ядрен процесор и шест CDNA-3 чиплета в един APU модул, оборудван с до 128 GB HBM3 памет, както и настройваемо ниво на TDP от 550- 760 W. Освен това системата е 1,8 пъти по-бърза от NVIDIA H100 (поне на хартия).

Създаден от HPE Cray с помощта на блейд сървърите EX255a, суперкомпютърът Adastra 2 осигурява 69 Gflops/W производителност. Десето място заема също базирана на MI300A машина —- RZAdams от Ливърморската национална лаборатория (62,8 Gflops/W).

Всички системи в челната десетка на класацията Green500 вече значително надхвърлят целта за енергийна ефективност от 50 Gflops/W. Тази цифра е необходима за постигане на изчисления в екзамащаб, като същевременно се ограничи консумацията на енергия до 20 мегавата.

Проблемът е, че по-малко мощните системи са значително по-ефективни: JEDI консумира само 67 kW, а най-производителната машина с GH200 в класацията Top500 — Alps на Швейцарския национален суперкомпютърен център — осигурява 434 Pflops в HPL бенчмарка, консумирайки 7,1 MW — това е само 14-тата най-енергийно ефективна машина с 61 Gflops/W.

Същият проблем се наблюдава и с Adastra 2: компютърът консумира дори по-малко от JEDI — 37 kW. Ако 69 Gflops/W могат да се поддържат в мащаб, ще са необходими само 25,2 MW, за да се осигурят 1742 eflops на производителност от El Capitan. Междувременно последният изисква около 29,6 MW, за да постигне своите рекордни стойности.

source

Сподели: