Години наред историята нацентър за даннипотреблението на енергия следва предвидима дъга. Дигитализацията се разраства, разбира се, но печалбите от ефективността от по-добри сървъри, виртуализация и облачна консолидация поддържат общото потребление на електроенергия изненадващо равно. Глобалното търсене на енергия в центъра за данни се движи около 1% от общото потребление на електроенергия - приблизително 200 тераватчаса годишно - през по-голямата част от десетилетие.
Тази ера свършва.
Конвергенцията на генеративния AI, добива на криптовалута, периферните изчисления и експоненциалния растеж на свързаните устройства пречупи старата крива на ефективност. Прогнозите на индустрията сега показват, че търсенето на енергия в центровете за данни нараства с годишни темпове, невиждани от началото на 2000-те години. В някои региони - Ирландия, Северна Вирджиния, Сингапур - центровете за данни вече представляват 15 до 25 процента от общото потребление на електроенергия, което принуждава регулаторите да налагат мораториуми върху ново строителство.
На този фон изборите на инфраструктура, които някога изглеждаха като технически детайли – охлаждаща архитектура, топология на разпределението на мощността, планиране на плътността на стелажа – се превърнаха в решения в заседателната зала. Разходите за енергия вече не са редова позиция. Това е ограничение за растежа.
Ефективността на потреблението на енергия, или PUE, е стандартният показател за ефективност в индустрията на центровете за данни от близо две десетилетия. Това е просто съотношение: общата мощност на съоръжението, разделена на мощността на ИТ оборудването.
PUE от 2,0 означава, че за всеки ват, захранващ сървъри и хранилище, друг ват отива за охлаждане, осветление, загуби при преобразуване на енергия и други режийни разходи. PUE от 1,2 означава, че режийните разходи консумират само 0,2 вата на IT ват.
Индустрията има широко приети нива, базирани на PUE:
| Ниво | PUE | DCiE | Какво означава |
|---|---|---|---|
| платина | <1,25 | >0,80 | Ефективност от световна класа, обикновено изисква свободно охлаждане или течно охлаждане |
| злато | 1.25 – 1.43 | 0,70 – 0,80 | Много ефективен, постижим с модерен дизайн в умерен климат |
| Сребро | 1,43 – 1,67 | 0,60 – 0,70 | Приемливо за по-стари съоръжения или по-топъл климат |
| бронз | 1.67 – 2.00 | 0,50 – 0,60 | Типично за наследени центрове за данни без големи преустройства |
| Справедлива | 2.00 – 2.50 часа | 0,40 – 0,50 | Ниска ефективност, високи оперативни разходи |
| беден | >2,50 | <0,40 | Критична неефективност, вероятно изисква незабавно внимание |
Проблемът е, че много организации всъщност не знаят своя PUE. Те оценяват. Те се досещат. Или измерват само на главния електромер и поемат останалото.
Индустриално проучване от 2023 г. установи, че почти 40 процента от операторите на центрове за данни никога не са измервали PUE на ниво шкаф. Сред тези, които го направиха, спредът между отчетения и действителния PUE беше средно 0,3 пункта - достатъчно, за да премести съоръжение от злато към сребро, без никой да забележи.
Разбирането защо PUE варира толкова широко започва с разглеждане къде мощността напуска центъра за данни.
В типично съоръжение с въздушно охлаждане с PUE около 1,8 разбивката изглежда приблизително така:
Охлаждащият товар е най-голямата променлива. Съоръжение в умерен климат, използващо външен въздух за свободно охлаждане, може да изразходва само 15 процента от енергията си извън ИТ за охлаждане. Едно и също съоръжение в тропически климат с механично охлаждане през цялата година може да изразходва 40 процента.
Ето защо доставчиците на колокация рекламират PUE на ниво съоръжение, но доставят PUE на брояча на клиента — различни числа, различни последици. Клиентът плаща за всичко.
Традиционното управление на центъра за данни предполага сравнително статична среда. Стелажите се пълнеха в продължение на месеци или години. Охлаждането може да се регулира бавно. Разпределението на мощността беше прекалено голямо от първия ден.
Облачната ера промени предположенията. Стелажите сега се пълнят в дни. Натоварванията се прехвърлят между сървърите автоматично. Клъстерите с изкуствен интелект с висока плътност могат да черпят три пъти повече мощност от съседните изчислителни стелажи с общо предназначение.
Тези промени наложиха преосмисляне на управлението на инфраструктурата. Открояват се три тенденции.
Първо, плътността нараства неравномерно.Стандартен сървърен шкаф преди десетилетие изразходваше 5-8 киловата. Днес стелажите с общо предназначение черпят 10-15 киловата. Стелажите за високопроизводителни изчисления и AI тренировки рутинно надвишават 30 киловата на стелаж. Някои надхвърлят 50 киловата.
Това създава предизвикателства за управление на топлината, които въздушното охлаждане трудно може да разреши. При 20 киловата на стелаж, въздушното охлаждане остава ефективно при правилно задържане. При 30 киловата става маргинален. При 40 киловата и повече течното охлаждане се премества от незадължително към необходимо.
Второ, планирането на капацитета стана предсказуемо.Старият метод – купете повече капацитет от необходимото и го оставете да престои – вече не работи в мащаб. Неактивният капацитет има както капиталови разходи, така и разходи за текуща поддръжка.
Съвременните системи за управление на инфраструктурата използват исторически данни и прогнозиране на работното натоварване, за да предвидят кога мощността, охлаждането или пространството в стелажа ще свършат. Най-добрите системи могат да препоръчат дали да преконфигурирате съществуващия капацитет или да поръчате нов хардуер, дни или седмици преди ограничението да стане критично.
Трето, изискванията за видимост имат напрраздразнен.Традиционният център за данни може да проследява захранването на ниво PDU. Едно модерно съоръжение се нуждае от видимост на ниво стелаж, понякога на ниво сървър и все по-често на ниво работно натоварване - да се знае коя виртуална машина или контейнер управлява каква мощност.
Инфраструктура на центъра за данниСофтуерът за управление (DCIM) съществува повече от десетилетие, но приемането остава неравномерно. По-малко от половината корпоративни центрове за данни са внедрили пълна DCIM система. Много от тях са използвали само малка част от неговите възможности.
Правилно внедрената DCIM система прави четири неща:
Управление на активи.Всеки сървър, комутатор, PDU и охлаждащ модул се проследяват в база данни за управление на конфигурацията (CMDB). Местоположение, мощност, мрежови връзки, история на поддръжката - всичко това. Това звучи елементарно, но много организации все още проследяват активи в електронни таблици, които минават месеци между актуализациите.
Наблюдение в реално време.Консумация на мощност на ниво PDU или стелаж, температура и влажност в точките на подаване и връщане, състояние на охладителната система, изправност на батерията на UPS. Алармите се задействат, когато параметрите се отклоняват от зададените стойности. Целта е да се открият проблеми, преди да причинят прекъсване.
Планиране на капацитета.Системата знае колко енергия и капацитет за охлаждане е наличен, колко се използва и колко е запазено за бъдещо внедряване. Той може да моделира въздействието от добавянето на нов стелаж с висока плътност или оттеглянето на набор от по-стари сървъри.
Визуализация.Цифров близнак на центъра за данни — стелаж по стелаж, плочка по плочка — показва текущите условия и позволява на операторите да симулират промени. Добавяне на 10 киловата товар към ред три, колона четири: това превишава ли капацитета за охлаждане? Системата отговаря, преди някой да премести оборудването.
Намаляването на потреблението на енергия в центъра за данни не е мистериозно. Методите са добре разбрани. Предизвикателството е дисциплината при изпълнението.
Повишете температурата на подавания въздух.Повечето центрове за данни работят на студено – 18 до 20 градуса по Целзий при връщането на охлаждащия модул – защото това е, което операторите винаги са правили. Насоките на ASHRAE сега препоръчват 24 до 27 градуса. Всяко увеличение на градус намалява енергията за охлаждане с приблизително 4 процента. Работата на 26 градуса вместо на 20 градуса спестява 20-25 процента от охлаждащата мощност.
Премахнете смесването на горещ и студен въздух.Контейнмент на горещи коридори, контейнери на студени коридори или вертикални изпускателни канали принуждават охлаждащия въздух да отива там, където е необходимо, вместо да минава през предната част на стелажите. Само задържането обикновено намалява енергията за охлаждане с 15-25 процента.
Използвайте задвижвания с променлива скорост.Вентилаторите и помпите с постоянна скорост губят енергия при частично натоварване. Задвижванията с променлива скорост съобразяват въздушния и водния поток с действителното търсене. Периодите на изплащане на модернизация обикновено са 1-3 години.
Оптимизирайте работата на UPS.Повечето UPS системи работят непрекъснато в режим на двойно преобразуване — преобразуват AC в DC и обратно в AC, дори когато електрическата мрежа е чиста. Съвременните UPS системи могат да превключват в еко-режим, когато качеството на захранването позволява, постигайки 99 процента ефективност вместо 94-96 процента. Компромисът е кратко време за прехвърляне към батерията, ако електрическата мрежа отпадне. За ИТ товари със захранвания, предназначени за такива трансфери, рискът е минимален.
Приемете разпределение на по-високо напрежение.Разпределянето на мощност при 415 V вместо 208 V намалява загубите при разпределение с приблизително 25 процента. Това изисква съвместими PDU и сървърни захранвания, но много съвременни устройства го поддържат.
Компания Shangyu CPSY, високотехнологично предприятие с фокус върху инфраструктурата на центрове за данни, отчита PUE от 1,3 за своите модулни решения за центрове за данни. Това поставя компанията в златното ниво, преминавайки към платинено.
Заявените 25 процента икономии на енергия в сравнение с конвенционалните дизайни идват от множество фактори. Модулните UPS системи с 97,4 процента ефективност на системно ниво намаляват загубите при разпределение, които иначе са 15-20 процента. Прецизните климатици с компресори с променлива скорост и EC вентилатори регулират мощността на охлаждане, за да съответстват на действителния топлинен товар, вместо да работят с фиксиран капацитет. И физическото оформление - задържане на гореща пътека, оптимално разстояние между стелажите, повдигнат под с перфорирани плочки с подходящ размер - се отнася до управлението на въздушния поток, което подкопава много иначе ефективни съоръжения.
Сертификационното портфолио на компанията включва ISO 9001 (управление на качеството) и ISO 27001 (управление на информационната сигурност). Нейните клиентски внедрявания включват партньорства с Huawei, ZTE и Inspur, с експортни инсталации в Съединените щати, Обединеното кралство, Германия, Франция и Австралия.
Години наред течното охлаждане беше нишова технология за суперкомпютърни центрове. Това се променя бързо.
Клъстерите за обучение на AI, използващи NVIDIA H100 или предстоящите графични процесори B200, генерират 30-50 киловата на шкаф в конфигурации с чисто въздушно охлаждане. При тези плътности въздушното охлаждане изисква високи скорости на въздушния поток — силни вентилатори, дълбоки стелажи и все още незначителен термичен контрол.
Течното охлаждане директно към чипа премахва 60-80 процента от топлината при източника. Чиповете работят по-хладно. Вентилаторите работят по-бавно. Стайният климатик обработва само останалата топлина от захранвания, паметта и други компоненти.
Увеличаването на ефективността е значително. Съоръженията с охлаждане директно към чипа отчитат PUE стойности от 1,1 до 1,2. Компромисите са по-високи капиталови разходи, по-сложно управление на течовете и необходимостта от пречистване на вода от ниво на съоръжението.
Пълно потапящо охлаждане – потапяне на цели сървъри в диелектрична течност – избутва PUE под 1.1, но остава специализирано. Повечето търговски центрове за данни ще приемат първо охлаждане директно към чипа, по-късно потапяне за специфични зони с висока плътност.
Платформата на центъра за данни SHANGYU включва разпоредби както за архитектури с въздушно, така и за течно охлаждане, като признава, че бъдещите внедрявания с висока плътност ще изискват топлинно управление, базирано на течности, независимо от дизайна на съоръжението.
Повечето оперативни екипи на центрове за данни все още работят реактивно. Звъни аларма. Някой разследва. Прилага се корекция. Цикълът се повтаря.
Преходът към предсказуемо управление изисква три способности, които липсват на много организации.
Пълни данни за конфигурацията.Знаейки какво има в центъра за данни – всеки сървър, всеки превключвател, всеки PDU, всеки охладителен модул – е основата. Без точни CMDB данни, планирането на капацитета е догадка.
Гранулирана телеметрия.Измерването на мощността на ниво стелаж е минималното. Измерването на мощността на сървър е по-добро. Приписването на мощност на ниво работно натоварване е най-доброто, но най-трудно за постигане.
Анализи, които разграничават сигнала от шума.Температурен скок на една стойка може да означава неизправен вентилатор. Температурен скок в половината център за данни може да означава повреда на охладителя. Системата трябва да диференцира и съответно да препоръчва отговори.
Платформата DCIM от SHANGYU осигурява поддръжка на SNMP и Modbus устройства, уеб-базирани интерфейси и интерфейси на Windows приложения и интеграция с мрежови камери за изображения, задействани от събития. Посочените цели са ясни: намаляване на скъпо струващото време на престой, намаляване на ежедневните оперативни разходи чрез пълен контрол на околната среда и подобряване на видимостта и проследимостта на управлението.
Потреблението на енергия в центъра за данни представлява приблизително 1 процент от световното търсене на електроенергия. Това число звучи малко, докато не бъде поставено в контекст. Това е приблизително еквивалентно на общото потребление на електроенергия в Обединеното кралство.
По-важното е, че темпът на растеж се ускорява. Прогнозите на индустрията показват, че търсенето на енергия в центровете за данни нараства с 10-15 процента годишно до 2030 г., движено от AI, приемането на облака и продължаващото разширяване на свързаните устройства. При тази скорост центровете за данни ще консумират 3-4 процента от световното електричество до края на десетилетието.
Повишаването на ефективността, което поддържа потреблението на енергия стабилно през предходното десетилетие, идва от виртуализацията на сървъра (намаляване на броя на физическите сървъри), подобрена ефективност на устройството (преминаване от въртящи се дискове към SSD) и широко разгръщане на естествено охлаждане (използване на външен въздух вместо механично охлаждане). Тези ниско висящи плодове са до голяма степен обрани.
Следващата вълна на ефективност ще дойде от течно охлаждане, разпределение на по-високо напрежение, оптимизирани за изкуствен интелект контроли за охлаждане и – може би най-важното – по-добро съответствие между капацитета на инфраструктурата и действителното ИТ натоварване. Последната част изисква видимост в реално време и предсказуем анализ, които DCIM системите предоставят, но малко съоръжения се използват напълно.
Знаете ли действителния си PUE, а не номера в спецификационния лист?Ако не сте мерили на изхода на UPS и на входа на IT оборудването, не знаете. Разликата е вашите реални режийни разходи.
Вашите охладителни системи борят ли се една с друга?В много центрове за данни CRAC модулите са настроени с припокриващи се ленти за температура и влажност. Едно устройство изсушава, докато друго овлажнява. Един охлажда, докато друг загрява. Това не е необичайно. Освен това не е ефективен.
Каква е консумацията на енергия на празен ход на вашите сървъри?Индустриалните данни показват, че типичните корпоративни сървъри черпят 30-40 процента от пиковата си мощност, когато не правят нищо. Изключването или поставянето в режим на заспиване на неизползвани сървъри е наличната мярка за ефективност с най-висока възвръщаемост на инвестициите. Той е и най-пренебрегваният.
Бихте ли могли да повишите температурата на подавания въздух с два градуса, без да нарушавате спецификациите на оборудването?Вероятно да. Повечето оборудване са предназначени за температури на всмукване 25-27 градуса. Повечето центрове за данни работят при 20-22 градуса. Тази разлика от шест градуса представлява години ненужна енергия за охлаждане.
Кога за последен път потвърдихте ефективността на вашия UPS?Ефективността на табелката се измерва при пълно натоварване с перфектен фактор на мощността. Реалната ефективност при частично натоварване с реалния фактор на мощността може да бъде с 5-10 точки по-ниска.