Как снизить PUE в ЦОД: быстрые меры без капремонта
Разбираем, как снизить PUE в ЦОД без капитального ремонта: какие метрики считать, какие быстрые меры дают эффект и с чего начать сегодня.

Зачем следить за PUE и энергозатратами ЦОД
PUE - простой показатель: сколько энергии дата-центр тратит на инфраструктуру вокруг ИТ по сравнению с тем, сколько уходит на серверы, СХД и сеть. Если PUE равен 2, это означает: на каждый 1 кВт для ИТ вы тратите еще 1 кВт на охлаждение, питание и прочую «обвязку». Чем выше PUE, тем больше денег и ресурсов уходит не на полезную нагрузку.
PUE часто ухудшается незаметно. Добавили стойки, а уставки охлаждения оставили «с запасом». Забились фильтры - вентиляторы начали крутиться быстрее. Появились локальные горячие точки, и температуру снизили по всему залу, хотя проблема была в одном месте. В результате счет за электроэнергию растет быстрее, чем ИТ-нагрузка.
Потери обычно прячутся в трех зонах: охлаждение (неправильные воздушные потоки, завышенные обороты вентиляторов, лишнее осушение), питание (потери в ИБП и распределении, низкая загрузка), режимы работы (оборудование работает «на максимуме», когда это не нужно).
Чтобы реально снизить PUE, важно разделить ИТ-нагрузку и инфраструктурные потери. Иначе легко принять неверное решение: например, купить еще кондиционеры, хотя причина - смешивание холодного и горячего воздуха.
Часть улучшений можно сделать без остановки площадки и без капремонта. Чаще всего это настройка уставок и режимов охлаждения, устранение очевидных утечек воздуха и приведение кабельных проходов в порядок, проверка потерь в цепочке питания и включение энергосберегающих режимов на части серверов там, где это допустимо.
Пример из практики: в зале с 20 стойками иногда достаточно убрать «коридоры» утечек и поднять уставку на 1-2°C, чтобы уже в первые недели снизить потребление на охлаждение.
Метрики, которые стоит начать измерять уже сейчас
Если задача - сократить энергозатраты и удерживать PUE под контролем, начните не с закупок, а с измерений. Даже простая регулярная статистика быстро показывает, где «утекают» киловатты: в охлаждении, питании или неэффективной ИТ-нагрузке.
PUE полезно считать в нескольких разрезах. Почасовой PUE помогает ловить пики (например, ночью из-за слишком низких уставок). Суточный удобен для сравнения смен и режимов. Месячный нужен для отчетности и оценки эффекта мер, но он часто прячет проблемы.
Минимальный набор, который стоит завести:
- PUE по часу и по суткам (с фиксацией показаний счетчиков)
- ИТ-нагрузка (кВт) хотя бы по залам, лучше - по стойкам или PDU
- температура и влажность в ключевых точках подачи и возврата воздуха
- загрузка ИБП (%), потери на преобразовании, коэффициент мощности (PF)
- события и переключения (обход ИБП, аварийные режимы, остановки вентиляторов)
Датчики температуры и влажности часто стоят не там, где принимаются решения. Важно измерять не «среднюю по залу», а то, что видит оборудование. Практичное правило: минимум по одному датчику на холодный коридор и по одному на горячий, плюс несколько в проблемных местах.
Где измерять в первую очередь: на входе воздуха в стойку (верх, середина, низ), в горячем коридоре на уровне выхода из серверов, у концов рядов (где чаще всего подсосы и рециркуляция), а также рядом с CRAC/CRAH (подача и возврат).
Если доступны датчики перепада давления или скорости воздуха, используйте их как индикатор рециркуляции. Рост температуры на входе при тех же уставках и той же ИТ-нагрузке часто означает, что холодный и горячий потоки смешиваются.
Небольшой пример: в одном зале ИТ-нагрузка держится около 120 кВт, но почасовой PUE скачет от 1,6 до 2,0. Сопоставление с загрузкой ИБП и температурой на входе в стойки показывает, что ночью включается избыточное охлаждение, а днем часть стоек перегревается из-за подсоса воздуха в конце ряда. Без метрик такие причины обычно остаются «на ощущениях».
Быстрый аудит за 1 день: пошаговый план
Цель однодневного аудита - получить честную стартовую точку: сколько энергии уходит на ИТ, сколько на вспомогательное, и где потери видны уже при осмотре. Это быстрый способ найти, как снизить PUE в ЦОД без остановки и без ремонта.
Перед началом договоритесь о простом правиле: в этот день ничего не «улучшаем», только измеряем и фиксируем. Любые изменения делайте после того, как записали базовые цифры.
-
Снимите показания электросчетчиков и базовую ИТ-нагрузку. Запишите общую мощность ЦОД, мощность ИТ (по UPS, PDU или серверным счетчикам) и время замера. Если есть BMS/DCIM, выгрузите данные хотя бы за последние 24 часа.
-
Пройдитесь по залу и отметьте места смешивания горячего и холодного воздуха. Часто это открытые проемы в стойках, незакрытые заглушки, щели под фальшполом, «самодельные» вырезы под кабели.
-
Проверьте уставки охлаждения и режимы вентиляторов. Зафиксируйте температуру подачи, целевую влажность, включен ли экономичный режим, нет ли конфликтов (одни установки греют, другие охлаждают).
-
Оцените загрузку стоек и «пустые» серверы. Отметьте стойки с низкой утилизацией, постоянно простаивающие узлы и точки перегрева, где вентиляторы серверов почти всегда на максимуме.
-
Сформируйте базовую линию и график повторных замеров. Достаточно таблицы: дата, PUE, ИТ-кВт, HVAC-кВт, температура подачи, жалобы или инциденты.
Если повторять замеры в один и тот же день недели и час, эффект заметен даже от мелких правок.
Воздушные потоки: простые меры по герметизации и разделению
Если нужен результат без переделок, почти всегда стоит начинать с воздуха. Лишние киловатты чаще уходят не из-за «плохих кондиционеров», а из-за смешивания холодного и горячего потоков. Когда горячий выдув возвращается на вход серверов, охлаждение вынуждено работать сильнее.
Герметизация: маленькие щели, большой эффект
Задача проста: холодный воздух должен доходить до оборудования, а не утекать в обход. Обычно это недорого и делается по месту.
Проверьте базовые вещи: заглушки в пустых U-местах, щели вокруг стоек, дверей и боковых панелей, кабельные вводы и проходы под фальшполом. Уберите предметы перед стойками и решетками, которые создают застойные зоны. Отдельно посмотрите на «перевернутые» устройства: если часть оборудования забирает воздух со стороны горячего коридора, вся стойка начинает греться.
Перед работами полезен простой тест: салфетка или тонкая лента на перфорации показывает, где воздух подсасывается «не туда». Если есть тепловизор, смотрите не среднюю температуру, а локальные горячие пятна именно на входе в сервер.
Разделение горячего и холодного без переделок
Даже без полноценного containment потоки можно временно разделить экранами, шторами или направляющими панелями. Смысл один: горячему выдуву сложнее попасть обратно на вход оборудования.
Чтобы увидеть эффект, держите под контролем три показателя: температуру на входе в стойки (вверху и внизу), разницу температур между входом и выходом (Delta T) и долю стоек с «горячими точками». После герметизации Delta T обычно растет, а уставки охлаждения можно аккуратно поднять без риска.
Настройки охлаждения: уставки и режимы без переделок
Быстрая экономия часто прячется не в «железе», а в настройках. Если охлаждение работает «на всякий случай», вентиляторы крутятся на максимум, а увлажнение включается без реальной необходимости, PUE растет даже при нормальной ИТ-нагрузке.
Температура: поднимать постепенно и с планом отката
Поднимайте уставку поэтапно, а не одним скачком. Цель - убрать «перехолод» там, где он не дает пользы.
- Поднимите уставку подачи на +1°C и выдержите 48-72 часа.
- Следите за температурой на входе в стойки (хотя бы в проблемных рядах) и за алармами серверов.
- Если появляются устойчивые горячие точки, верните шаг назад и сначала исправьте воздушные потоки.
- Повторяйте шаг, пока не упретесь в согласованный предел по политике надежности.
- Заранее задайте «порог отката»: например, рост входной температуры выше целевого диапазона в двух измерениях подряд.
Небольшое повышение уставки часто снижает потребление вентиляторов и компрессоров сильнее, чем ожидают.
Режимы CRAC/CRAH: обороты и логика управления
Проверьте, как управляются вентиляторы: постоянными оборотами или по датчикам (температура подачи, давление в коридоре, температура на входе в стойки). Постоянные обороты обычно означают лишние кВт 24/7.
Оцените, не конфликтуют ли установки: одна охлаждает сильнее, другая догревает или активно осушает. Это частая причина скрытых затрат.
Влажность лучше согласовать диапазоном, а не жесткой точкой. Слишком узкие уставки включают увлажнение и осушение чаще, чем нужно, и добавляют нагрузку.
Проверьте расписания. Ночью и в выходные нередко остается «дневной» режим, хотя ИТ-нагрузка ниже. Даже согласованное снижение интенсивности охлаждения в непиковые часы дает заметный эффект.
Чтобы не охлаждать весь зал «из-за двух стоек», составьте карту горячих точек. Пройдитесь по рядам с тепловизором или переносными датчиками и отметьте 3-5 мест с самым высоким входным воздухом. Усиливайте охлаждение адресно (через перераспределение потоков и корректировку уставок), а не за счет общей мощности.
Для контроля изменений фиксируйте минимум: среднюю и максимальную температуру на входе в стойки, долю времени работы увлажнения, потребление вентиляторов и число температурных алармов. Так настройки можно улучшать безопасно и откатываться по понятным условиям.
ИТ-нагрузка: как снизить кВт без потери качества сервиса
Сокращение ИТ-потребления часто дает двойной эффект: меньше кВт на серверах и меньше кВт на охлаждении и питании.
Первый быстрый шаг - настройка питания на уровне ОС, гипервизора и BIOS там, где это безопасно. В офисных VDI, тестовых средах и части бэкенд-сервисов обычно можно включить энергосберегающие профили CPU (динамическая частота, C-states) и ограничить турбо-режим. Перед массовым включением проверьте 2-3 типовых сервиса, чтобы не получить рост задержек.
Дальше ищите «зомби». Почти в каждом ЦОД есть ВМ для разовых задач, забытые стенды, резервные сервисы, которые давно не используются, и просто недогруженные хосты. Здесь кВт уходят без пользы.
На неделю обычно хватает понятного набора действий: составить список хостов и ВМ с низкой загрузкой CPU и памяти за 7-14 дней, консолидировать нагрузку на меньшее число хостов, выключать лишнее по расписанию (ночь, выходные), аккуратно включить power caps там, где SLA позволяет, и проверить, не создают ли пики фоновые задачи (бэкапы, индексации). Если в одной зоне постоянно жарко, перераспределите «горячие» сервисы между стойками, чтобы не поднимать уставки охлаждения для всего зала.
Чтобы не спорить «на ощущениях», измеряйте хотя бы: кВт на стойку и на кластер (с разбивкой по времени суток), среднюю и 95-й перцентиль загрузки CPU по хостам, долю выключенных хостов и удаленных как неиспользуемые ВМ, а также температуру на входе в сервер по группам стоек.
Простой пример: после консолидации двух слабозагруженных кластеров в один и отключения 6-8 хостов на ночное окно обычно сразу видно падение потребления, а затем снижается и нагрузка на охлаждение.
Если часть парка старая, иногда выгоднее точечно заменить самые прожорливые серверы (например, под виртуализацию или базы), чем расширять охлаждение. Для этого сравните «ватт на полезную работу» в вашем контексте: кВт на ВМ, на транзакцию или на vCPU при типовом профиле нагрузки.
Питание и распределение: быстрые шаги по снижению потерь
Потери в цепочке питания часто не бросаются в глаза: ИТ-нагрузка выглядит «нормально», а лишние киловатты прячутся в ИБП, распределении и преобразованиях.
Первое, что стоит проверить, - загрузку ИБП. При слишком низкой загрузке (например, мощность зарезервировали «на рост», а стойки еще не добавили) КПД обычно хуже, и вы постоянно платите за потери. Смотрите реальную нагрузку по каждому ИБП, а не только «по залу».
Дальше - режим работы ИБП. У многих моделей есть варианты с более высоким КПД при стабильном питании, но их нужно заранее согласовать с требованиями к качеству сети и рисками. Важно оценивать КПД на вашей фактической нагрузке утром, днем и ночью.
Обычный обход распределения тоже дает находки: нагрев клемм, слабые контакты, перекос фаз, неравномерно загруженные линии. Иногда это видно по журналам аварий и росту температуры в щите, иногда - только по замерам токовыми клещами.
Короткий план на неделю:
- снять загрузку и КПД по каждому ИБП в 3-4 временных точках
- проверить перекос фаз и перераспределить однофазные нагрузки
- найти горячие соединения (тепловизор или датчики) и устранить причину
- убрать лишние преобразования там, где это возможно (двойное преобразование, лишние блоки, «временные» удлинители)
- включить учет по PDU или линиям, чтобы видеть самые «дорогие» стойки
Пример: часть стоек переехала, а ИБП остался в прежней схеме и работает на малой нагрузке. После перераспределения стоек по PDU и переноса части питания на другой ИБП потери снижаются, фазы выравниваются, а охлаждение перестает «догонять» лишнее тепло от электрощитов.
Операционные привычки, которые стабилизируют PUE
PUE часто «плавает» не из-за оборудования, а из-за мелких действий: кто-то поменял уставку, кто-то открыл дверь в машинный зал, кто-то снял заглушку и не вернул. Если хотите удерживать эффект, нужна дисциплина: фиксировать изменения, быстро находить отклонения и не допускать повторов.
Начните с простого журнала изменений: дата, что сделали (уставка, режим, перестановка стойки, чистка фильтра), кто согласовал и какой эффект увидели на температурах, мощности и PUE в ближайшие 24-48 часов. Через месяц такой журнал экономит время: становится видно, какие действия реально помогают, а какие дают «красивую идею» без результата.
Полезен короткий обход смены по одному листу: неплотности (двери, фальшпол, вводы кабелей), отсутствующие заглушки, необычные звуки и вибрации вентиляторов и кондиционеров, «ручные» режимы, странные показания датчиков, препятствия для потока воздуха, а также состояние зон высокой плотности.
Дальше - правила размещения. Если в одном ряду есть слабые места по охлаждению, не ставьте туда самые горячие узлы и не наращивайте плотность без проверки. На практике это одна строчка в регламенте и 10 минут согласования перед любой перестановкой.
И не забывайте про оповещения по порогам: не только по температуре, но и по росту нагрузки, чтобы не лечить последствия. Раз в неделю полезно делать короткий разбор: что влияло на PUE (погода, загрузка, изменения по журналу) и что стоит повторить.
Пример сценария: улучшения за 2 недели без остановки ЦОД
Вводные: небольшой зал на 24 стойки, нагрузки смешанные (виртуализация, базы, пара GPU-серверов). Эксплуатация жаловалась на перегрев в двух рядах: в конце ряда горячо, а у входа в зал холодно. Остановки нельзя, только работы «на ходу».
Неделя 1: фиксируем базовую линию
Сначала договорились, что такое «до» и «после». За 3 дня сняли базовые цифры: общий PUE по данным счетчиков и ИБП, карту температур по рядам (вход/выход из стойки, верх/середина/низ), загрузку ИБП и распределение по фазам. Уже на этом этапе стало видно, что часть стоек «съедает» больше холодного воздуха из-за подсосов, а один ИБП работает в менее выгодном диапазоне нагрузки.
Неделя 2: 5 действий без переделок
Затем сделали пять простых вещей, без демонтажа и переноса оборудования:
- поставили заглушки в пустые юниты и закрыли крупные щели вокруг кабельных вводов
- подняли уставку подачи на 1-2°C и выровняли режим вентиляторов, убрав резкие «качели»
- переразложили несколько «горячих» серверов внутри стоек (сверху вниз) и освободили пространство перед фронтом
- сбалансировали нагрузку по PDU и фазам, чтобы выровнять токи и снизить лишний нагрев
- ввели расписания для тестовых стендов и части dev-окружений на ночь и выходные
Результат проверяли по тем же точкам, что и «до». Сравнивали не один день, а минимум неделю, чтобы не попасть на случайную погоду и всплески нагрузки.
Критерии контроля были простые: температура на входе в проблемных стойках, число предупреждений о перегреве, мощность на вводе и средняя загрузка ИБП. В итоге PUE снизился с 1,78 до 1,66, а перегрев в двух рядах исчез без роста расходов на охлаждение. Часто это и есть правильная логика: сначала убираем потери воздуха и хаос в режимах, а уже потом думаем о модернизации.
Часть задач отложили до планового окна: установка дополнительных датчиков, пересмотр схемы холодных коридоров и обновление логики управления охлаждением.
Частые ошибки и ловушки при работе с PUE
PUE легко сделать «красивым» на графике, но сложнее улучшить по-настоящему. Это не цель сама по себе, а индикатор. Если гнаться за снижением PUE любой ценой, можно незаметно поднять риски перегрева, аварий и деградации оборудования.
Одна из самых частых ошибок - резкое изменение настроек охлаждения. Поднять уставки или снизить скорость вентиляторов сразу на несколько градусов кажется быстрым выигрышем. Но без мониторинга и плана отката о проблеме вы узнаете последними: когда начнут расти ошибки, троттлинг или отказы дисков.
Не менее опасно смотреть только на средние цифры. Средний PUE за сутки может улучшиться, а в одном ряду появится локальная «печка» из-за утечек воздуха, заблокированных перфоплит или перепутанного направления потоков. В итоге вы экономите на вентиляторах, а потом теряете на простоях.
Сравнивать разные периоды тоже нужно осторожно. Зимой охлаждение часто становится эффективнее из-за погоды, и кажется, что меры сработали. Летом ситуация может развернуться обратно. Поэтому корректно сравнивать результаты при похожих условиях или хотя бы фиксировать наружную температуру и влажность.
Чтобы не считать экономию «на глаз», держите простые правила:
- фиксируйте ИТ-нагрузку (кВт ИТ) вместе с PUE
- записывайте уставки и режимы оборудования перед изменениями
- контролируйте температуру на входе в стойки, а не только в помещении
- делайте изменения небольшими шагами и оставляйте «кнопку назад»
- отмечайте погодные условия при сравнении недель
Пример: команда подняла уставку на 2 градуса и увидела улучшение PUE. Но через неделю один кластер начал троттлить по вечерам. Разбор показал, что средняя температура в зале была нормальной, а горячая зона возникала у двух стоек из-за неплотно закрытых заглушек и кабельных вводов. Исправили герметизацию, вернули уставку в безопасный диапазон и получили стабильную экономию без потерь по сервису.
Короткий чеклист и следующие шаги
Если вы хотите снизить PUE без капитальных вложений, начните с простых проверок и закрепите ритм измерений. Логика одна: сначала честная базовая линия, затем изменения по одному параметру и сравнение по тем же метрикам.
Короткий чеклист на ближайшие 1-3 дня:
- зафиксируйте базу: PUE и ИТ-нагрузку (кВт) хотя бы за последние 7-30 дней, отдельно отметьте выходные и пики
- осмотрите воздушный тракт: заглушки в пустых юнитах, щели вокруг кабельных вводов, открытые панели, препятствия перед перфоплитами
- проверьте охлаждение: уставки температуры, расписания (ночь, выходные), корректность датчиков и их расположение (не в струе холодного воздуха)
- оцените питание: загрузку ИБП, перекосы по фазам (если актуально), распределение нагрузки по стойкам и явные точки перегрева
- назначьте владельца метрик и договоритесь о ритме отчета: минимум раз в неделю, с коротким комментарием, что меняли и зачем
Дальше важно превратить разовые проверки в процесс. Удобно завести простую форму: дата, изменение, PUE, ИТ-кВт, температура на входе в стойки, заметки по инцидентам.
Следующие шаги на 2 недели: наладить регулярный сбор данных (пусть даже вручную), сделать 1-2 быстрых изменения (например, герметизацию и корректировку уставок) и сравнить с базой. Если данных мало или измерения спорные, помогает внешний инструментальный замер и настройка мониторинга.
Если вы как раз планируете модернизацию серверов, стоек или инженерной инфраструктуры, такие работы часто делают вместе с системным интегратором. Например, GSE.kz (gse.kz) занимается системной интеграцией и инфраструктурой для ЦОД, а также поставляет серверы и рабочие станции собственного производства, что удобно, когда нужно связать обновление ИТ-парка с измеримым снижением энергопотребления.