Alibaba намери начин да намали броя на използваните от нея Nvidia ускорители с 82%
Недостигът на изчислителна мощност, присъщ на динамично развиващия се пазар на изкуствен интелект в Китай, се изостря от ограниченията върху вноса на специализирани ускорители. Разработчиците са принудени да оптимизират, а Alibaba е намерила начин да намали с 82% броя на Nvidia ускорителите, необходими за работа на нейните езикови модели.
Както обяснява South China Morning Post, бета-тестването на специализираната система Aegaeon вече над три месеца е в ход в едно от подразделенията на Alibaba Cloud. Според информация, представена от Alibaba на събитието SOSP в столицата на Южна Корея, тази система е намалила броя на ускорителите Nvidia H20, обслужващи десетки езикови модели — от 1192 на 213. Освен това съответните езикови модели използват до 72 милиона параметъра, обяснява източникът.
Представители на Alibaba си сътрудничиха с изследователи от Пекинския университет, за да създадат тази система, наричайки я „първият опит за намаляване на излишните разходи, свързани с едновременното обслужване на натоварванията с големи езикови модели“. Доставчиците на облачни услуги като Alibaba са изправени пред необходимостта едновременно да обслужват хиляди AI-модели, но в сферата на инференса най-често се използват само няколко модела, като Qwen или DeepSeek, а други се включват доста рядко. Това води до разхищение на ресурси. В екосистемата на Alibaba Cloud, например, до 17,7% от ускорителите са разпределени за обработка на 1,35% от заявките.
Изследователи от цял свят започнаха да предлагат начини за подобряване на ефективността на изчислителните ресурси чрез обединяване, при което един графичен процесор обслужва множество модели. Системата Aegaeon използва автоматично мащабиране на ниво токени, което позволява на графичните процесори да превключват между различните модели директно по време на генерирането на токени. В резултат на това един графичен процесор може да обработва до седем модела, докато алтернативните системи обикновено обработват само два или три. Латентността, необходима за превключване между моделите в Aegaeon, е намалена с 97%.
Alibaba тества тази система на маркетплейса за моделите Bailian, който предлага моделите Qwen на корпоративните потребители. Ускорителите Nvidia H20, създадени от едноименната американска компания, са произведени специално за китайския пазар. През април те бяха обект на временна забрана за доставки до Китай, но тя беше отменена до лятото. Китайските власти обаче започнаха настоятелно да препоръчват на местните разработчици да дават приоритет на компонентите с местен произход. В резултат на това позицията на Nvidia на китайския пазар за усъвършенствани AI чипове буквално се е свила до нула, според изпълнителния директор на компанията.
Спомнете си, че Alibaba разработи ИИ-чипа T-Head PPU, който е сравним по производителност с Nvidia H20.









