юли 10, 2025

Нов корейски NPU ускорява изкуствения интелект с 60%, спестява 44% енергия

Корейски изследователи от Училището по компютърни науки KAIST, в сътрудничество с HyperAccel Inc, са разработили нов невронен процесор, който подобрява производителността на генеративните модели с изкуствен интелект средно с 60%.

Съвременните модели на генеративен изкуствен интелект, като ChatGPT-4 и Gemini 2.5, изискват не само висока пропускателна способност на паметта, но и значително повече памет. В резултат на това компаниите, които използват облачен генеративен изкуствен интелект, включително Microsoft и Google, купуват стотици хиляди графични процесори от NVIDIA.

Нов невронен процесор, създаден от корейски изследователи, подобрява производителността на генеративните модели с изкуствен интелект с 60% и намалява консумацията на енергия с 44%. Технологията е предложена от учени, ръководени от професор Джонгсео Парк. Тя е проектирана специално за ИИ клауд услугите, като ChatGPT. 

В момента, базираната на графични процесори ИИ инфраструктура изисква поне няколко от тях, за да осигури висока пропускателна способност и капацитет. Технологията на корейските изследователи позволява използването на по-малко невронни процесори за поддръжка на същата инфраструктура чрез квантуване на KV-кеша. KV-кешът заема по-голямата част от използваната памет. По този начин, квантирането значително намалява разходите за изграждане на ИИ генеративни облачни услуги.

Обща архитектура на ускорителя Oaken/ACM

Новият NPU се интегрира с интерфейсите на паметта, без да променя базираният на съществуващите архитектури алгоритъм на операционната система,. Той не само имплементира механизма за квантуване на KV-кеша, но и управлява паметта на ниво страница, като ефективно използва ограничената пропускателна способност и капацитет на паметта, и въвежда нови методи за кодиране, оптимизирани за квантования KV-кеш. Очаква се този NPU да намали оперативните разходи при изграждането на облачна генеративна AI инфраструктура, благодарение на високата си производителност и ниска консумация на енергия. 

Това изследване, проведено в сътрудничество с HyperAccel Inc., намери решение в леките генеративни алгоритми за изкуствен интелект и успешно разработи основната технология на NPU, която може да реши проблема с паметта. С тази технология реализирахме NPU с подобрение на производителността от над 60% в сравнение с най-новите графични процесори, като комбинирахме техники за квантуване, които намаляват изискванията към паметта при съхранение на точността на извода и оптимизирането за тази хардуерна конструкция“ — казва професор Джонгсео Парк.

source

Сподели: