Новият AI-ускорител Trillium на Google вече е достъпен в GCP облака
Google представи новия ИИ-ускорител TPU v6, наречен Trillium, който вече е достъпен за тестване от потребителите чрез Google Cloud Platform. Според Google този ускорител се счита за най-модерното решение на компанията по отношение на цена и производителност, което го прави привлекателен при задачите за дълбоко обучение и големите AI-проекти.
Trillium беше официално представен през май тази година и има 32 GB HBM памет с пропускателна способност от 1,6 TB/s. Устройството интегрира SparseCore блокове от трето поколение, предназначени да оптимизират обработката на AI, като системи за препоръки и класиране на съдържанието. Интерфейсът ICI (Inter-Chip Interconnect), който осигурява скорост за трансфер на данните до 3,58 Tbps, позволява на тези ускорители да комуникират ефективно помежду си в клъстер, което ускорява обработката на големите обеми от данни.
Резултатите от тестовете на Trillium показват, че производителността на обучението за модели като Gemma 2-27b, MaxText Default-32b и Llama2-70B се увеличава с повече от четири пъти, а за LLama2-7b и Gemma2-9b с повече от три пъти в сравнение с TPU v5e.
2
При инференса на моделите Stable Diffusion XL и Trillium беше записано трикратно увеличение на производителността. По отношение на цена/производителност, TPU v6e демонстрира увеличение от 1,8 пъти в сравнение с TPU v5e и почти двойно в сравнение с TPU v5p.
Сред ключовите предимства на TPU v6e (Trillium версията) в сравнение с предишния TPU v5e са:
- Повече от четирикратно увеличение на производителността при обучение на AI модели
- Производителността на инференса се увеличава до три пъти
- Подобрена енергийна ефективност с 67%
- 4,7x увеличение на пиковата изчислителна производителност на чип
- Удвояване на капацитета на HBM
- Удвояване на пропускателната способност на междучиповото свързване ICI
Всеки възел се състои от осем TPU v6e, разположени в два NUMA-домейна, два процесора със 180 vCPU, 1,44 TB RAM и четири 200G адаптера (по два за всеки CPU) за комуникация с други системи. В клъстера могат да се обединят до 256 устройства Trillium, осигурявайки пропускателна способност на мрежата до 25,6 Tbps. За комбиниране на големи клъстери в десетки хиляди ускорители се използва оптичната платформа Google Jupiter, която достига пропускателна способност от 13 Pbit/s. Trillium също е включен във високопроизводителната AI Hypercomputer платформа, предназначена за ресурсоемките ИИ-задачи.
Специалният софтуер Multislice позволява на Trillium да мащабира производителността почти линейно, особено при задачите за обучение на AI. Клъстерите, базирани на TPU v6e, могат да достигнат 91 Eflops при AI изчисленията, което е повече от четири пъти по-бързо от подобните, базирани на TPU v5p, системи. Пиковата производителност на TPU v6e е 918 терафлопа за операции, използващи BF16 и 1836 терафлопа за INT8.









