август 28, 2025

Големият AI – изисква голяма система за течно охлаждане: Google заговори за TPU охладителната система

Течното охлаждане се използва в центровете за данни отдавна, макар и не навсякъде. Напоследък то става все по-важно на фона на нарастващото потребление на енергия и генерирането на топлина от ИИ-оборудването. Google говори за еволюцията на охлаждането на ниво центрове за данни за своите TPU AI-ускорители, съобщава Chips and Cheese.

Google за първи път оборудва своите TPU с течно охлаждане през 2018 г. след серия от експерименти и оттогава непрекъснато подобрява системата за течно охлаждане. Настоящите решения са проектирани специално за мащаба на центровете за данни. По този начин, стелажи с шест (5+1) устройства за разпределение на течностите (CDU) обслужват до осем стелажа с TPU. За лесна поддръжка се използват гъвкави маркучи и бързосвързващи се връзки.

Във вътрешната верига чиповете са свързани последователно, което води до нагряване на охлаждащата течност, така че изчисляването на мощността се извършва според най-горещия чип в края на всяка верига. От CDU чрез топлообменници топлината се пренася към общата водоснабдителна система на съоръжението, без да се смесват течностите (вода и в двете вериги). Според Google, консумацията на енергия от LSS помпите е по-малка от 5% от мощността на вентилаторите, необходима за въздушното охлаждане.

Google използва воден блок с разделен поток. За охлаждане на TPUv4 е използвана охладителна система с гол кристал. Този метод не е напълно безопасен, но в случая с TPUv4 този подход е необходим, тъй като подобни ускорители консумират 1,6 пъти повече енергия от TPUv3. Освен това компанията трябваше да работи върху проблемите с течовете и появата на микроорганизми.

Google щателно тества компонентите за течове, използва специални системи за уведомяване при течове и извършва планирана поддръжка и филтриране. Освен това компанията разполага с набор от протоколи за реагиране при проблеми и предупреждения, което ѝ позволява бързо да елиминира заплахите, които могат да бъдат доста значителни в мащаба на дейта центровете.

През май се появиха съобщения, че Google подготвя мегаватови стелажи. Всъщност компанията вече е започнала да използва 416 VAC на входа на стелажите и DC конвертори, както и да ги оборудва с вградени UPS устройства. Освен това, компанията динамично управлява консумацията на енергия и производителността както на отделните TPU устройства, така и на стелажите като цяло.

source

Сподели: