ноември 26, 2023

В Китай е създаден 384-ядрен процесор Sunway SW26010-Pro за суперкомпютри – той е 4 пъти по-бърз от предшественика си

Тази година Националният суперкомпютърен център в Уси (Китай) пусна в действие най-мощния суперкомпютър, базиран на усъвършенствани 384-ядрени процесори Sunway SW26010-Pro, разработени в страната. В сравнение с предшественика му – 256-ядрения модел Sunway SW26010 без суфикс „Pro“ – производителността му е нараснала до четири пъти, според изданието Chips and Cheese.

Sunway SW26010-Pro и базираните на него суперкомпютри станаха известни за първи път още през 2021 година, но едва тази година на конференцията за високопроизводителни изчисления SC23 разработчикът публично демонстрира този процесор и разказа за неговата архитектура. Максималната производителност FP64 на всеки Sunway SW26010-Pro е 13,8 Tflops – за сравнение, 96-ядреният AMD EPYC 9654 демонстрира производителност от около 5,4 Tflops.

Sunway SW26010-Pro се основава на съвсем нова собствена RISC архитектура – тя включва 6 групи ядра (CGs) и блок за обработка на протоколи (PPU). Всяка група CG включва 64 изчислителни обработващи елемента (Compute Processing Elements – CPE) с 512 bit векторен двигател, 256 KB свръхбърз кеш за данни и 16 KB кеш за инструкции, един управляващ обработващ елемент (Management Processing Element – MPE) – суперскаларно ядро за извънредни действия с векторен двигател, 32 KB L1 кеш за данни и инструкции, по 512 KB L2 кеш; и 128-битов интерфейс за DDR4-3200 памет.

MPE и CPE използват протокол, базиран на директория – той осигурява последователен обмен на данни, за да се намали обемът на движението на данни между ядрата и да се поддържа точна комуникация между тях. Това е особено важно за приложения с нередовен достъп до споделени данни. Всеки 6-клетъчен процесор има 384 изчислителни ядра и 6 контролни ядра – общо 390 ядра.

Sunway SW26010-Pro се различава от своя предшественик с по-високи скорости (2,25 GHz за CPE и 2,10 GHz за MPE спрямо 1,45 GHz и за двете при предишния модел) и напълно преработена 64-битова RISC архитектура, която спомага за 4-кратно увеличаване на производителността на FP64. Разработчикът е увеличил пропускателната способност на паметта, като е заменил контролерите DDR3 с DDR4. Докато предишната версия на процесора имаше 8 GB DDR3 на CPE клъстер, сега тя е 16 GB DDR4 – съответно общото количество памет, поддържано от процесора се е увеличило от 32 GB в SW26010 до 96 GB в SW26010-Pro.

В същото време, както отбелязват от Tom’s Hardware, слабите места и на двете версии на процесора са кеш паметта и RAM паметта. В SW26010-Pro е опитано да бъде решен проблема с кеша, като се увеличи обема на свръхбързата памет от 64 на 256 KB, но това все още не е достатъчно при липсата на подходяща L2. Освен това двуканалната подсистема на паметта DDR4-3200 (51,2 GB/s) едва ли е достатъчна за 64 ядра, всяко от които има 512-битов векторен FPU и осигурява до 16 FP64-флопа на цикъл. Проблемът с кеш паметта може да бъде частично компенсиран чрез скъпа и отнемаща време софтуерна оптимизация, но предвид недостатъчната пропускателна способност на RAM паметта не е ясно колко ефективен ще бъде в крайна сметка модернизираният процесор за задачите, които екзаскейл суперкомпютрите са предназначени да решават.


source

Сподели: