Зачем следить за PUE и энергозатратами ЦОД

PUE - простой показатель: сколько энергии дата-центр тратит на инфраструктуру вокруг ИТ по сравнению с тем, сколько уходит на серверы, СХД и сеть. Если PUE равен 2, это означает: на каждый 1 кВт для ИТ вы тратите еще 1 кВт на охлаждение, питание и прочую «обвязку». Чем выше PUE, тем больше денег и ресурсов уходит не на полезную нагрузку.

PUE часто ухудшается незаметно. Добавили стойки, а уставки охлаждения оставили «с запасом». Забились фильтры - вентиляторы начали крутиться быстрее. Появились локальные горячие точки, и температуру снизили по всему залу, хотя проблема была в одном месте. В результате счет за электроэнергию растет быстрее, чем ИТ-нагрузка.

Потери обычно прячутся в трех зонах: охлаждение (неправильные воздушные потоки, завышенные обороты вентиляторов, лишнее осушение), питание (потери в ИБП и распределении, низкая загрузка), режимы работы (оборудование работает «на максимуме», когда это не нужно).

Чтобы реально снизить PUE, важно разделить ИТ-нагрузку и инфраструктурные потери. Иначе легко принять неверное решение: например, купить еще кондиционеры, хотя причина - смешивание холодного и горячего воздуха.

Часть улучшений можно сделать без остановки площадки и без капремонта. Чаще всего это настройка уставок и режимов охлаждения, устранение очевидных утечек воздуха и приведение кабельных проходов в порядок, проверка потерь в цепочке питания и включение энергосберегающих режимов на части серверов там, где это допустимо.

Пример из практики: в зале с 20 стойками иногда достаточно убрать «коридоры» утечек и поднять уставку на 1-2°C, чтобы уже в первые недели снизить потребление на охлаждение.

Метрики, которые стоит начать измерять уже сейчас

Если задача - сократить энергозатраты и удерживать PUE под контролем, начните не с закупок, а с измерений. Даже простая регулярная статистика быстро показывает, где «утекают» киловатты: в охлаждении, питании или неэффективной ИТ-нагрузке.

PUE полезно считать в нескольких разрезах. Почасовой PUE помогает ловить пики (например, ночью из-за слишком низких уставок). Суточный удобен для сравнения смен и режимов. Месячный нужен для отчетности и оценки эффекта мер, но он часто прячет проблемы.

Минимальный набор, который стоит завести:

PUE по часу и по суткам (с фиксацией показаний счетчиков)
ИТ-нагрузка (кВт) хотя бы по залам, лучше - по стойкам или PDU
температура и влажность в ключевых точках подачи и возврата воздуха
загрузка ИБП (%), потери на преобразовании, коэффициент мощности (PF)
события и переключения (обход ИБП, аварийные режимы, остановки вентиляторов)

Датчики температуры и влажности часто стоят не там, где принимаются решения. Важно измерять не «среднюю по залу», а то, что видит оборудование. Практичное правило: минимум по одному датчику на холодный коридор и по одному на горячий, плюс несколько в проблемных местах.

Где измерять в первую очередь: на входе воздуха в стойку (верх, середина, низ), в горячем коридоре на уровне выхода из серверов, у концов рядов (где чаще всего подсосы и рециркуляция), а также рядом с CRAC/CRAH (подача и возврат).

Если доступны датчики перепада давления или скорости воздуха, используйте их как индикатор рециркуляции. Рост температуры на входе при тех же уставках и той же ИТ-нагрузке часто означает, что холодный и горячий потоки смешиваются.

Небольшой пример: в одном зале ИТ-нагрузка держится около 120 кВт, но почасовой PUE скачет от 1,6 до 2,0. Сопоставление с загрузкой ИБП и температурой на входе в стойки показывает, что ночью включается избыточное охлаждение, а днем часть стоек перегревается из-за подсоса воздуха в конце ряда. Без метрик такие причины обычно остаются «на ощущениях».

Быстрый аудит за 1 день: пошаговый план

Цель однодневного аудита - получить честную стартовую точку: сколько энергии уходит на ИТ, сколько на вспомогательное, и где потери видны уже при осмотре. Это быстрый способ найти, как снизить PUE в ЦОД без остановки и без ремонта.

Перед началом договоритесь о простом правиле: в этот день ничего не «улучшаем», только измеряем и фиксируем. Любые изменения делайте после того, как записали базовые цифры.

Снимите показания электросчетчиков и базовую ИТ-нагрузку. Запишите общую мощность ЦОД, мощность ИТ (по UPS, PDU или серверным счетчикам) и время замера. Если есть BMS/DCIM, выгрузите данные хотя бы за последние 24 часа.
Пройдитесь по залу и отметьте места смешивания горячего и холодного воздуха. Часто это открытые проемы в стойках, незакрытые заглушки, щели под фальшполом, «самодельные» вырезы под кабели.
Проверьте уставки охлаждения и режимы вентиляторов. Зафиксируйте температуру подачи, целевую влажность, включен ли экономичный режим, нет ли конфликтов (одни установки греют, другие охлаждают).
Оцените загрузку стоек и «пустые» серверы. Отметьте стойки с низкой утилизацией, постоянно простаивающие узлы и точки перегрева, где вентиляторы серверов почти всегда на максимуме.
Сформируйте базовую линию и график повторных замеров. Достаточно таблицы: дата, PUE, ИТ-кВт, HVAC-кВт, температура подачи, жалобы или инциденты.

Если повторять замеры в один и тот же день недели и час, эффект заметен даже от мелких правок.

Воздушные потоки: простые меры по герметизации и разделению

Если нужен результат без переделок, почти всегда стоит начинать с воздуха. Лишние киловатты чаще уходят не из-за «плохих кондиционеров», а из-за смешивания холодного и горячего потоков. Когда горячий выдув возвращается на вход серверов, охлаждение вынуждено работать сильнее.

Герметизация: маленькие щели, большой эффект

Задача проста: холодный воздух должен доходить до оборудования, а не утекать в обход. Обычно это недорого и делается по месту.

Проверьте базовые вещи: заглушки в пустых U-местах, щели вокруг стоек, дверей и боковых панелей, кабельные вводы и проходы под фальшполом. Уберите предметы перед стойками и решетками, которые создают застойные зоны. Отдельно посмотрите на «перевернутые» устройства: если часть оборудования забирает воздух со стороны горячего коридора, вся стойка начинает греться.

Перед работами полезен простой тест: салфетка или тонкая лента на перфорации показывает, где воздух подсасывается «не туда». Если есть тепловизор, смотрите не среднюю температуру, а локальные горячие пятна именно на входе в сервер.

Разделение горячего и холодного без переделок

Даже без полноценного containment потоки можно временно разделить экранами, шторами или направляющими панелями. Смысл один: горячему выдуву сложнее попасть обратно на вход оборудования.

Чтобы увидеть эффект, держите под контролем три показателя: температуру на входе в стойки (вверху и внизу), разницу температур между входом и выходом (Delta T) и долю стоек с «горячими точками». После герметизации Delta T обычно растет, а уставки охлаждения можно аккуратно поднять без риска.

Настройки охлаждения: уставки и режимы без переделок

Оценка потерь в цепочке питания

Разберем загрузку ИБП, перекос фаз и потери в распределении электроэнергии.

Запросить оценку

Быстрая экономия часто прячется не в «железе», а в настройках. Если охлаждение работает «на всякий случай», вентиляторы крутятся на максимум, а увлажнение включается без реальной необходимости, PUE растет даже при нормальной ИТ-нагрузке.

Температура: поднимать постепенно и с планом отката

Поднимайте уставку поэтапно, а не одним скачком. Цель - убрать «перехолод» там, где он не дает пользы.

Поднимите уставку подачи на +1°C и выдержите 48-72 часа.
Следите за температурой на входе в стойки (хотя бы в проблемных рядах) и за алармами серверов.
Если появляются устойчивые горячие точки, верните шаг назад и сначала исправьте воздушные потоки.
Повторяйте шаг, пока не упретесь в согласованный предел по политике надежности.
Заранее задайте «порог отката»: например, рост входной температуры выше целевого диапазона в двух измерениях подряд.

Небольшое повышение уставки часто снижает потребление вентиляторов и компрессоров сильнее, чем ожидают.

Режимы CRAC/CRAH: обороты и логика управления

Проверьте, как управляются вентиляторы: постоянными оборотами или по датчикам (температура подачи, давление в коридоре, температура на входе в стойки). Постоянные обороты обычно означают лишние кВт 24/7.

Оцените, не конфликтуют ли установки: одна охлаждает сильнее, другая догревает или активно осушает. Это частая причина скрытых затрат.

Влажность лучше согласовать диапазоном, а не жесткой точкой. Слишком узкие уставки включают увлажнение и осушение чаще, чем нужно, и добавляют нагрузку.

Проверьте расписания. Ночью и в выходные нередко остается «дневной» режим, хотя ИТ-нагрузка ниже. Даже согласованное снижение интенсивности охлаждения в непиковые часы дает заметный эффект.

Чтобы не охлаждать весь зал «из-за двух стоек», составьте карту горячих точек. Пройдитесь по рядам с тепловизором или переносными датчиками и отметьте 3-5 мест с самым высоким входным воздухом. Усиливайте охлаждение адресно (через перераспределение потоков и корректировку уставок), а не за счет общей мощности.

Для контроля изменений фиксируйте минимум: среднюю и максимальную температуру на входе в стойки, долю времени работы увлажнения, потребление вентиляторов и число температурных алармов. Так настройки можно улучшать безопасно и откатываться по понятным условиям.

ИТ-нагрузка: как снизить кВт без потери качества сервиса

Сокращение ИТ-потребления часто дает двойной эффект: меньше кВт на серверах и меньше кВт на охлаждении и питании.

Первый быстрый шаг - настройка питания на уровне ОС, гипервизора и BIOS там, где это безопасно. В офисных VDI, тестовых средах и части бэкенд-сервисов обычно можно включить энергосберегающие профили CPU (динамическая частота, C-states) и ограничить турбо-режим. Перед массовым включением проверьте 2-3 типовых сервиса, чтобы не получить рост задержек.

Дальше ищите «зомби». Почти в каждом ЦОД есть ВМ для разовых задач, забытые стенды, резервные сервисы, которые давно не используются, и просто недогруженные хосты. Здесь кВт уходят без пользы.

На неделю обычно хватает понятного набора действий: составить список хостов и ВМ с низкой загрузкой CPU и памяти за 7-14 дней, консолидировать нагрузку на меньшее число хостов, выключать лишнее по расписанию (ночь, выходные), аккуратно включить power caps там, где SLA позволяет, и проверить, не создают ли пики фоновые задачи (бэкапы, индексации). Если в одной зоне постоянно жарко, перераспределите «горячие» сервисы между стойками, чтобы не поднимать уставки охлаждения для всего зала.

Чтобы не спорить «на ощущениях», измеряйте хотя бы: кВт на стойку и на кластер (с разбивкой по времени суток), среднюю и 95-й перцентиль загрузки CPU по хостам, долю выключенных хостов и удаленных как неиспользуемые ВМ, а также температуру на входе в сервер по группам стоек.

Простой пример: после консолидации двух слабозагруженных кластеров в один и отключения 6-8 хостов на ночное окно обычно сразу видно падение потребления, а затем снижается и нагрузка на охлаждение.

Если часть парка старая, иногда выгоднее точечно заменить самые прожорливые серверы (например, под виртуализацию или базы), чем расширять охлаждение. Для этого сравните «ватт на полезную работу» в вашем контексте: кВт на ВМ, на транзакцию или на vCPU при типовом профиле нагрузки.

Питание и распределение: быстрые шаги по снижению потерь

Потери в цепочке питания часто не бросаются в глаза: ИТ-нагрузка выглядит «нормально», а лишние киловатты прячутся в ИБП, распределении и преобразованиях.

Первое, что стоит проверить, - загрузку ИБП. При слишком низкой загрузке (например, мощность зарезервировали «на рост», а стойки еще не добавили) КПД обычно хуже, и вы постоянно платите за потери. Смотрите реальную нагрузку по каждому ИБП, а не только «по залу».

Дальше - режим работы ИБП. У многих моделей есть варианты с более высоким КПД при стабильном питании, но их нужно заранее согласовать с требованиями к качеству сети и рисками. Важно оценивать КПД на вашей фактической нагрузке утром, днем и ночью.

Обычный обход распределения тоже дает находки: нагрев клемм, слабые контакты, перекос фаз, неравномерно загруженные линии. Иногда это видно по журналам аварий и росту температуры в щите, иногда - только по замерам токовыми клещами.

Короткий план на неделю:

снять загрузку и КПД по каждому ИБП в 3-4 временных точках
проверить перекос фаз и перераспределить однофазные нагрузки
найти горячие соединения (тепловизор или датчики) и устранить причину
убрать лишние преобразования там, где это возможно (двойное преобразование, лишние блоки, «временные» удлинители)
включить учет по PDU или линиям, чтобы видеть самые «дорогие» стойки

Пример: часть стоек переехала, а ИБП остался в прежней схеме и работает на малой нагрузке. После перераспределения стоек по PDU и переноса части питания на другой ИБП потери снижаются, фазы выравниваются, а охлаждение перестает «догонять» лишнее тепло от электрощитов.

Операционные привычки, которые стабилизируют PUE

Поставка оборудования для организации

Поставим рабочие станции, ПК и моноблоки GSE с локальным производством в Казахстане.

Запросить КП

PUE часто «плавает» не из-за оборудования, а из-за мелких действий: кто-то поменял уставку, кто-то открыл дверь в машинный зал, кто-то снял заглушку и не вернул. Если хотите удерживать эффект, нужна дисциплина: фиксировать изменения, быстро находить отклонения и не допускать повторов.

Начните с простого журнала изменений: дата, что сделали (уставка, режим, перестановка стойки, чистка фильтра), кто согласовал и какой эффект увидели на температурах, мощности и PUE в ближайшие 24-48 часов. Через месяц такой журнал экономит время: становится видно, какие действия реально помогают, а какие дают «красивую идею» без результата.

Полезен короткий обход смены по одному листу: неплотности (двери, фальшпол, вводы кабелей), отсутствующие заглушки, необычные звуки и вибрации вентиляторов и кондиционеров, «ручные» режимы, странные показания датчиков, препятствия для потока воздуха, а также состояние зон высокой плотности.

Дальше - правила размещения. Если в одном ряду есть слабые места по охлаждению, не ставьте туда самые горячие узлы и не наращивайте плотность без проверки. На практике это одна строчка в регламенте и 10 минут согласования перед любой перестановкой.

И не забывайте про оповещения по порогам: не только по температуре, но и по росту нагрузки, чтобы не лечить последствия. Раз в неделю полезно делать короткий разбор: что влияло на PUE (погода, загрузка, изменения по журналу) и что стоит повторить.

Пример сценария: улучшения за 2 недели без остановки ЦОД

Вводные: небольшой зал на 24 стойки, нагрузки смешанные (виртуализация, базы, пара GPU-серверов). Эксплуатация жаловалась на перегрев в двух рядах: в конце ряда горячо, а у входа в зал холодно. Остановки нельзя, только работы «на ходу».

Неделя 1: фиксируем базовую линию

Сначала договорились, что такое «до» и «после». За 3 дня сняли базовые цифры: общий PUE по данным счетчиков и ИБП, карту температур по рядам (вход/выход из стойки, верх/середина/низ), загрузку ИБП и распределение по фазам. Уже на этом этапе стало видно, что часть стоек «съедает» больше холодного воздуха из-за подсосов, а один ИБП работает в менее выгодном диапазоне нагрузки.

Неделя 2: 5 действий без переделок

Затем сделали пять простых вещей, без демонтажа и переноса оборудования:

поставили заглушки в пустые юниты и закрыли крупные щели вокруг кабельных вводов
подняли уставку подачи на 1-2°C и выровняли режим вентиляторов, убрав резкие «качели»
переразложили несколько «горячих» серверов внутри стоек (сверху вниз) и освободили пространство перед фронтом
сбалансировали нагрузку по PDU и фазам, чтобы выровнять токи и снизить лишний нагрев
ввели расписания для тестовых стендов и части dev-окружений на ночь и выходные

Результат проверяли по тем же точкам, что и «до». Сравнивали не один день, а минимум неделю, чтобы не попасть на случайную погоду и всплески нагрузки.

Критерии контроля были простые: температура на входе в проблемных стойках, число предупреждений о перегреве, мощность на вводе и средняя загрузка ИБП. В итоге PUE снизился с 1,78 до 1,66, а перегрев в двух рядах исчез без роста расходов на охлаждение. Часто это и есть правильная логика: сначала убираем потери воздуха и хаос в режимах, а уже потом думаем о модернизации.

Часть задач отложили до планового окна: установка дополнительных датчиков, пересмотр схемы холодных коридоров и обновление логики управления охлаждением.

Частые ошибки и ловушки при работе с PUE

Расчет энергопрофиля будущей платформы

Сравним конфигурации по потреблению и плотности, чтобы избежать перегрева и переплат.

Получить расчет

PUE легко сделать «красивым» на графике, но сложнее улучшить по-настоящему. Это не цель сама по себе, а индикатор. Если гнаться за снижением PUE любой ценой, можно незаметно поднять риски перегрева, аварий и деградации оборудования.

Одна из самых частых ошибок - резкое изменение настроек охлаждения. Поднять уставки или снизить скорость вентиляторов сразу на несколько градусов кажется быстрым выигрышем. Но без мониторинга и плана отката о проблеме вы узнаете последними: когда начнут расти ошибки, троттлинг или отказы дисков.

Не менее опасно смотреть только на средние цифры. Средний PUE за сутки может улучшиться, а в одном ряду появится локальная «печка» из-за утечек воздуха, заблокированных перфоплит или перепутанного направления потоков. В итоге вы экономите на вентиляторах, а потом теряете на простоях.

Сравнивать разные периоды тоже нужно осторожно. Зимой охлаждение часто становится эффективнее из-за погоды, и кажется, что меры сработали. Летом ситуация может развернуться обратно. Поэтому корректно сравнивать результаты при похожих условиях или хотя бы фиксировать наружную температуру и влажность.

Чтобы не считать экономию «на глаз», держите простые правила:

фиксируйте ИТ-нагрузку (кВт ИТ) вместе с PUE
записывайте уставки и режимы оборудования перед изменениями
контролируйте температуру на входе в стойки, а не только в помещении
делайте изменения небольшими шагами и оставляйте «кнопку назад»
отмечайте погодные условия при сравнении недель

Пример: команда подняла уставку на 2 градуса и увидела улучшение PUE. Но через неделю один кластер начал троттлить по вечерам. Разбор показал, что средняя температура в зале была нормальной, а горячая зона возникала у двух стоек из-за неплотно закрытых заглушек и кабельных вводов. Исправили герметизацию, вернули уставку в безопасный диапазон и получили стабильную экономию без потерь по сервису.

Короткий чеклист и следующие шаги

Если вы хотите снизить PUE без капитальных вложений, начните с простых проверок и закрепите ритм измерений. Логика одна: сначала честная базовая линия, затем изменения по одному параметру и сравнение по тем же метрикам.

Короткий чеклист на ближайшие 1-3 дня:

зафиксируйте базу: PUE и ИТ-нагрузку (кВт) хотя бы за последние 7-30 дней, отдельно отметьте выходные и пики
осмотрите воздушный тракт: заглушки в пустых юнитах, щели вокруг кабельных вводов, открытые панели, препятствия перед перфоплитами
проверьте охлаждение: уставки температуры, расписания (ночь, выходные), корректность датчиков и их расположение (не в струе холодного воздуха)
оцените питание: загрузку ИБП, перекосы по фазам (если актуально), распределение нагрузки по стойкам и явные точки перегрева
назначьте владельца метрик и договоритесь о ритме отчета: минимум раз в неделю, с коротким комментарием, что меняли и зачем

Дальше важно превратить разовые проверки в процесс. Удобно завести простую форму: дата, изменение, PUE, ИТ-кВт, температура на входе в стойки, заметки по инцидентам.

Следующие шаги на 2 недели: наладить регулярный сбор данных (пусть даже вручную), сделать 1-2 быстрых изменения (например, герметизацию и корректировку уставок) и сравнить с базой. Если данных мало или измерения спорные, помогает внешний инструментальный замер и настройка мониторинга.

Если вы как раз планируете модернизацию серверов, стоек или инженерной инфраструктуры, такие работы часто делают вместе с системным интегратором. Например, GSE.kz (gse.kz) занимается системной интеграцией и инфраструктурой для ЦОД, а также поставляет серверы и рабочие станции собственного производства, что удобно, когда нужно связать обновление ИТ-парка с измеримым снижением энергопотребления.