20 нояб. 2025 г.·7 мин

HPE Apollo для HPC: проектирование GPU/CPU узла и метрики

HPE Apollo для HPC: как спроектировать узел под плотную установку GPU/CPU и какие метрики собрать на пилоте, чтобы уверенно защитить бюджет.

С чего обычно начинается проблема в HPC лаборатории

В лаборатории HPC - это не «самый мощный сервер», а предсказуемое время расчета для конкретных задач. Это может быть обучение моделей на GPU, CFD, молекулярное моделирование, обработка изображений, геномика или пакетные расчеты для курсов и публикаций. Ограничения тоже типовые: место в серверной, лимит по электроэнергии, шум, бюджет на сопровождение и люди, которые будут все это обслуживать.

План обычно ломается в момент, когда хотят «плотно поставить GPU и CPU». На бумаге кажется, что достаточно добавить ускорители и ядра. На практике почти всегда упираются в питание (не хватает киловатт на стойку и по фазам), охлаждение (воздух не справляется, горячие коридоры не организованы) и сеть/хранилище (GPU простаивают, потому что данные не успевают приезжать). Иногда добавляется четвертое ограничение - «физика»: высота узла, доступная глубина стойки или лимит по весу.

Обычно сравнивают три подхода: собрать узлы из компонентов, взять готовые плотные GPU-узлы в линейках вроде HPE Apollo, или выбрать шасси с несколькими узлами на стойку. Разница не только в цене, но и в «стоимости сюрпризов»: насколько заранее понятны требования к стойке, PDU, резервированию, обслуживанию и доступности запчастей.

Чтобы не купить «на вырост» и не потерять деньги, полезно заранее договориться, какие метрики подтвердят пользу пилота. Например: время до результата (wall time) на типовой задаче, загрузка GPU/CPU, пропускная способность ввода-вывода, стабильность в многочасовых прогонах и сколько задач проходит в неделю. Тогда узел проектируют под измеряемый эффект, а не под максимальные характеристики в спецификации.

Короткий пример: у исследовательской группы есть три типовых пайплайна, и один из них «забивает» диски и сеть сильнее, чем GPU. Если это выяснить на пилоте, бюджет логичнее потратить на правильное хранилище и сеть, а не на лишние ускорители, которые будут простаивать.

Постановка требований: что уточнить до выбора железа

Покупка HPC железа почти всегда упирается не в бренд, а в то, насколько точно описаны задачи. Один и тот же HPE Apollo для HPC можно собрать под разные профили: где-то важнее GPU, где-то память на CPU, а где-то скорость доступа к данным.

Начните с простого: зафиксируйте, какие расчеты вы делаете регулярно и как вы поймете, что стало лучше. Сведите задачи в несколько категорий (например, ML, CFD, молекулярное моделирование, визуализация, VDI/удаленные рабочие места) и по каждой запишите 2-3 типичных джоба: входные данные, длительность, частота запуска и что считается успешным результатом.

Дальше - баланс GPU и CPU. Частая ошибка: купить много GPU, а потом упереться в CPU, память или I/O. Для каждой задачи уточните, сколько потоков CPU реально загружается и сколько памяти нужно; сколько GPU требуется на один расчет и важен ли быстрый обмен между ними; какие требования к точности (FP32/FP16/FP64), если это влияет на выбор ускорителей.

Отдельно опишите режим работы: это очередь с ночными прогонами и длинными расчетами или интерактивные сессии, где важна быстрая реакция. Например, днем могут идти короткие эксперименты для подбора гиперпараметров, а ночью - длинные тренировки. Это напрямую влияет на планировщик, резервирование и на то, сколько узлов нужно.

Заранее зафиксируйте требования к данным: объемы сейчас и через год, типы файлов, частоту чтения/записи и где данные «живут» между расчетами. Если датасеты большие, а запись идет непрерывно, узкие места чаще возникают в хранении и сети, а не в вычислениях.

И наконец, SLA. Запишите целевые сроки расчета (time-to-result), допустимые простои и окна обслуживания. Если доступность критична, резервы по питанию, сервису и запасным частям нужно заложить до выбора конфигурации.

Архитектурный эскиз: как выбрать направление для HPE Apollo

Архитектурный эскиз нужен, чтобы не начинать с «самого мощного узла», а быстро понять, что реально даст рост результатов. Для HPE Apollo для HPC развилка обычно одна: гнаться за максимумом GPU в одном узле или собрать более ровный баланс GPU/CPU, чтобы не упереться в память, сеть или питание.

Сначала фиксируют целевой сценарий. Если задачи - обучение моделей, рендер, молекулярная динамика, чаще выигрывает больше GPU на узел. Если это классический CPU+MPI, пред- и постобработка, симуляции с большим числом потоков, важнее ядра CPU, объем RAM и пропускная способность сети.

Дальше проверьте «физику площадки». Даже идеальная конфигурация не поедет, если стойка не выдержит питание или нет холодопроизводительности.

Что чаще всего ограничивает

Узкое место обычно проявляется в одном из четырех мест: вычисления (перекос GPU/CPU), память (не хватает RAM или пропускной способности), сеть (синхронизации и масштабирование «не тянут»), хранилище (медленный ввод-вывод и подготовка датасетов).

После этого выберите 2-3 конфигурации-кандидаты для пилота, чтобы сравнение было честным. Например: «4 GPU + больше RAM», «8 GPU + минимум CPU», «баланс 4-6 GPU + быстрый NVMe под scratch». Важно заранее договориться, какие параметры менять нельзя (тип GPU, лимит по кВт на узел, форм-фактор), иначе пилот превратится в бесконечный перебор.

Сразу зафиксируйте бюджетные границы: CapEx (железо, стойки, сеть, СХД) и OpEx (электроэнергия, охлаждение, поддержка, простои). Практичный подход - считать стоимость часа полезных вычислений и цену простоя GPU из-за памяти, сети или диска.

Шаг за шагом: проектируем вычислительный узел GPU/CPU

Чтобы узел с GPU работал предсказуемо, начинайте не с модели сервера, а с профиля нагрузки: обучение нейросетей, инференс, CFD/CAE, рендер, биоинформатика. От этого зависит, что важнее - частота CPU, пропускная способность памяти, объем VRAM или скорость локального scratch.

1) CPU: частота vs ядра и NUMA

Для задач с сильной зависимостью от одного потока (часть препроцессинга, лицензируемые приложения, некоторый CAE) чаще выигрывает более высокая частота и меньше ядер. Для MPI и массовых расчетов обычно важнее ядра и стабильная производительность под длительной нагрузкой.

Учитывайте NUMA: в двухсокетном узле закрепляйте GPU и сетевые адаптеры так, чтобы они были ближе к «своему» CPU. И смотрите на теплопакет: в плотной конфигурации лишние 50-100 Вт на сокет могут заметно усложнить охлаждение.

2) ОЗУ: сколько и как заполнять каналы

На памяти часто экономят зря, особенно если GPU «кормятся» данными с CPU. Для части задач ориентируются на 32-64 ГБ ОЗУ на один GPU, но лучше подтвердить это расчетом по датасету и пайплайну.

По скорости часто важнее не «максимальные мегагерцы», а правильное заполнение каналов. Ставьте модули симметрично, чтобы не потерять пропускную способность из-за неполной конфигурации.

3) GPU: тип ускорителя и VRAM

Выбирайте GPU по трем вещам: объем VRAM, характеристики памяти и поддерживаемые режимы. Для обучения часто критичен объем, для инференса - энергоэффективность и цена за запрос.

Если доступны варианты PCIe и SXM, учитывайте компромисс: SXM обычно дает выше плотность и производительность на узел, но требует более жестких условий по питанию и охлаждению.

4) PCIe-топология: чтобы обмен не стал узким местом

Проверьте, сколько линий PCIe реально получает каждый GPU и куда подключены сеть и NVMe. Частая ошибка - когда ускорители формально есть, но сидят на «обрезанных» линиях или делят полосу с быстрыми дисками, из-за чего проседают загрузка данных и обмен между устройствами.

5) Локальные диски: NVMe под scratch и кэш

Даже при наличии общего хранилища узлу часто нужен быстрый локальный слой: NVMe под scratch, кэш датасетов, временные файлы и чекпойнты. Заранее определите, сколько места нужно на один эксперимент и что важнее - скорость чтения, запись или надежность. Хороший пилотный узел позволяет проверить это на реальных джобах и затем спокойно перенести конфигурацию в кластер.

Плотная установка: питание, охлаждение и стойки без сюрпризов

Плотная установка узлов HPE Apollo с несколькими GPU почти всегда упирается не в «поместится ли в стойку», а в питание и тепло. Ошибка на этом этапе приводит к троттлингу, аварийным остановкам и конфликтам с эксплуатацией.

По питанию важно считать не только паспортные TDP, а реальное потребление. У GPU бывают короткие пики, а при одновременной загрузке CPU, GPU и сети они складываются. Для бюджета и надежности закладывают запас и по блокам питания узла, и по линии в стойке (PDU и ввод).

Перед заказом стойки и PDU проверьте: пиковую мощность узла и стойки (и отдельно среднюю на типичных задачах), запас 15-30% по PDU и по вводному автомату, необходимость A/B питания и возможность зала это выдержать, допустимую температуру воздуха на входе (и что будет при +2-3 C к плану), а также ограничения по шуму.

Охлаждение часто начинается с воздуха, но плотные GPU быстро «съедают» холодный коридор. Следите за температурой на входе узлов, скоростью вентиляторов и перепадом давления. Кабель-менеджмент планируйте так, чтобы не перекрывать поток и сохранить доступ к ручкам, БП и салазкам.

Подумайте про обслуживание, пока стойка еще на бумаге: насколько быстро можно менять вентиляторы и БП, какие накопители держать в ЗИП, есть ли место для выдвижения узла на салазках. Простой ориентир: если техник не может безопасно выкатить узел и заменить БП за 10-15 минут, плотность выбрана слишком агрессивно.

Сеть и хранение: чтобы GPU не простаивали

Сеть для HPC кластеров

Подберем Ethernet или RDMA и заложим масштабирование без переработки схемы.

Спроектировать сеть

GPU в узле может быть очень быстрым, но если данные приходят медленно, вы оплачиваете простой. В HPC это видно по низкой загрузке GPU при активном ожидании ввода-вывода или обменов между узлами.

Сеть: Ethernet или InfiniBand

Если задачи в основном независимые (много отдельных расчетов, рендер, параметрические прогоны) и данные лежат близко, часто хватает хорошего Ethernet. Но если у вас MPI, тесный обмен между узлами, распределенное обучение или частые синхронизации, смотрите в сторону RDMA. Это может быть InfiniBand или высокоскоростной Ethernet с RDMA - важны задержки и стабильность.

На пилоте полезно проверить: характер обмена (размер сообщений и частоту), долю времени на коммуникации в профиле приложения, реальную латентность и пропускную способность между узлами, а также запас портов и аплинков под рост.

Для топологии часто выбирают leaf-spine, чтобы не поймать узкие места при масштабировании. Планируйте порты не «впритык»: рост обычно происходит быстрее, чем бюджет на второй коммутатор.

Хранение: где держать датасеты и результаты

Если чтение идет большими потоками и много параллельных клиентов, часто нужна параллельная файловая система. Для более простых сценариев может хватить NAS/SAN, но обязательно проверяйте, выдержит ли она пики одновременных запусков.

На практике часто выигрывает гибрид: локальные NVMe в узле как быстрый слой (кэш, scratch) плюс общее хранилище как «источник истины». Пример: в лаборатории запускают 32 задачи, каждая читает 200 ГБ и пишет 20 ГБ результатов. Если scratch на локальных NVMe, сеть и общее хранилище не «задыхаются», а выгрузка результатов идет пакетами.

Не забывайте про жизненный цикл данных: куда уходят результаты после проекта. Архивный слой и понятные правила бэкапа часто дешевле, чем расширять быстрый storage.

ПО и эксплуатация: что влияет на результат пилота

Пилот на HPE Apollo для HPC нередко «проваливается» не из-за железа, а из-за мелочей в ПО и операциях. Типичный сценарий: узел с мощными GPU показывает слабые цифры, потому что версия драйвера не совпадает с библиотеками, а часть задач запускается без нужных флагов или с неверной привязкой CPU к GPU.

Базовый стек должен быть предсказуемым: ОС, драйверы GPU, библиотеки (MPI, math, ML-фреймворки) и способ упаковки окружения. Контейнеры помогают избежать «у меня работает, у вас нет», но только если вы фиксируете версии и правила запуска. В пилоте лучше выбрать стабильный набор и не менять его каждые пару дней.

Планировщик тоже влияет на цифры. Очереди, приоритеты, квоты и fair-share должны соответствовать реальной работе лаборатории. Если на пилоте все запускают задачи «вручную» на одном узле, вы не увидите реальных задержек, конфликтов за ресурсы и простоя GPU.

Заранее договоритесь, как вы управляете образами и обновлениями: один «золотой» образ, журнал изменений, окно обслуживания и быстрый откат, проверка совместимости драйверов и библиотек перед обновлением.

Без мониторинга вы спорите на ощущениях. Минимум - сбор загрузки CPU/GPU, температур и троттлинга, ошибок ECC, использования памяти, сетевых счетчиков, а также событий планировщика (ожидание в очереди, фактическое время работы). Отдельно продумайте безопасность: сегментация доступа, MFA где возможно, аудит команд и доступов.

Какие метрики собирать на пилоте, чтобы защитить бюджет

Пилот ценен не тем, что «вроде работает», а тем, что дает цифры для решения: сколько задач вы реально закроете, какой будет счет за электричество и где узкие места. Выберите 2-3 типичных нагрузки (например, обучение модели, численное моделирование, обработка изображений) и снимайте одинаковый набор метрик для каждой.

Набор метрик, который понимают и инженеры, и финансы

Собирайте данные в разрезе «задача -> узел -> кластер», чтобы было видно, за счет чего получился прирост.

Производительность: время до результата, throughput (задач/час), масштабируемость при добавлении GPU/узлов.
Утилизация: загрузка GPU/CPU, потребление памяти, простои из-за I/O, сеть, PCIe (есть ли упор в шину).
Энергоэффективность: ватт на задачу или итерацию, кВт-ч на проект, пики потребления.
Стабильность: ошибки, перегрев, троттлинг, перезапуски, доля «плохих» запусков.
Опыт пользователей: время ожидания в очереди, доля отмененных задач, время запуска окружения.

Пример: если обучение модели ускорилось с 10 часов до 4, но GPU загружены лишь на 55%, пилот показывает не только выигрыш, но и причину потерь - например, медленное хранилище или сеть. Это полезнее, чем «паспортные TFLOPS».

Как перевести метрики в аргументы для бюджета

В отчете пилота сделайте простой расчет экономики: стоимость часа вычислений (электричество + поддержка + амортизация) и прогноз TCO на 3-5 лет при росте задач. Удобно показывать два сценария: «как есть» и «после устранения узкого места».

Для защиты на закупочном комитете обычно хватает: таблицы «задачи/сроки до/сроки на пилоте/годовой эффект», пары графиков по утилизации и кВт-ч на проект, и списка рисков (перегрев, питание, сбои) с тем, как вы их закрываете.

Как провести пилот: простой план работ и артефакты

Техническое задание для HPC

Оформим задачи ограничения площадки и KPI пилота в один понятный документ.

Собрать требования

Пилот в HPC нужен не чтобы «погонять железо», а чтобы быстро доказать три вещи: выбранная конфигурация дает нужную производительность, укладывается в ограничения по питанию и охлаждению и не разваливается в реальной эксплуатации.

Начните с честного сравнения 2-3 вариантов узла на одном и том же наборе тестов. Различия должны быть понятны: больше GPU, но меньше CPU; другой объем памяти; разные профили питания GPU.

На горизонте 2 недель обычно успевают поднять базовую среду, прогнать синтетику и один реальный пайплайн. За 4-6 недель можно добавить второй пайплайн, отладить сеть и storage и собрать статистику по стабильности.

Чтобы замеры были защищаемыми, задайте правила до первого запуска: 1-2 прогона на прогрев не считаются; минимум 3 прогона на измерение с фиксацией разброса; фиксируются версии BIOS/firmware, драйверов GPU, CUDA, MPI и контейнера/окружения; условия одинаковые (лимиты мощности, частоты, температура в помещении).

На выходе оформите короткий отчет: таблица результатов по конфигурациям, 2-3 графика (время/стоимость, производительность на ватт, масштабирование) и четкая рекомендация к закупке - что берете сейчас и что можно докупить позже.

Частые ошибки при проектировании узлов под плотные GPU

Первая ловушка - смотреть только на TFLOPS. В реальных задачах узел часто упирается в память GPU (объем и пропускную способность), обмен CPU-GPU и I/O. Итог предсказуем: дорогие ускорители загружены на 40-60%, пользователь видит «медленно» и просит еще GPU.

Вторая ошибка - забыть про троттлинг. При плотной установке лимиты по питанию и температуре включаются быстрее, чем ожидают: частоты падают, время расчета растет, а в отчетах это выглядит как «плохая модель» или «неудачное железо». Для HPE Apollo для HPC это особенно критично: плотность работает только если питание и охлаждение рассчитаны честно.

Третья ошибка - перепутать цель проекта. Максимальная плотность в стойке и удобство обслуживания редко совпадают. Если в лаборатории нет людей, готовых менять карту или вентилятор в тесном шасси, простои съедят всю выгоду.

Отдельная боль - пилот без контроля версий. Один «тихий» апдейт драйвера или библиотеки, и сравнение «до/после» теряет смысл.

Быстрый чек-лист перед закупкой и масштабированием

Пилот HPC без сюрпризов

Согласуем 2-3 теста и метрики, чтобы пилот дал цифры для закупки.

Запросить пилот

Перед тем как фиксировать конфигурацию HPE Apollo для HPC и подписывать закупку, пройдите короткую проверку. Она помогает поймать «скрытые стопоры», из-за которых пилот проходит хорошо, а масштабирование внезапно упирается в инженерку или эксплуатацию.

Инженерная готовность стойки: посчитайте пик на стойку с запасом и проверьте распределение по фазам и PDU; убедитесь, что холодный/горячий коридоры реально соблюдаются и хватает расхода воздуха на плотные GPU-узлы; зафиксируйте, где и как вы измеряете температуру на входе.
Производительность тракта данных: подтвердите сеть по пропускной способности и задержкам как на узел, так и на кластер в пике; по хранилищу отдельно проверьте быстрое чтение датасетов и стабильную запись результатов (в том числе мелких файлов и чекпойнтов).
Метрики и эксплуатация: договоритесь, какие числа считаются успехом и как вы их меряете; заранее назначьте ответственность за обновления, мониторинг, реакцию на аварии и запасные части.

Пример сценария: как лаборатория обосновывает кластер на HPE Apollo

Лаборатория на 10-20 исследователей упирается в очередь на расчеты. Есть два типа задач: обучение моделей на GPU (короткие, но частые прогоны) и CPU-симуляции (длинные расчеты, много памяти). При этом есть жесткий лимит по электричеству, например 20-30 кВт на стойку, и нельзя просто добавить еще серверов.

Команда выбирает два кандидата узла: один с упором на плотную установку GPU (максимум ускорителей на узел, умеренный CPU), второй более сбалансированный (меньше GPU, но больше ядер CPU и ОЗУ). Смысл - на пилоте понять, что дает лучший результат именно для их очереди и ограничения по кВт.

Пилот делают на реальной нагрузке, а не только на синтетике: несколько типовых обучений (время до нужной точности, повторяемость), 1-2 CPU-симуляции (время и потребление памяти), тест на параллельность (сколько задач реально идет одновременно без деградации), замеры питания и температур под пиком.

Дальше цифры переводят в деньги. Например, если средний расчет сокращается с 12 часов до 8, то очередь из 50 прогонов в месяц экономит 200 часов. Эти часы умножают на стоимость простоя команды (зарплата, срыв сроков гранта, простой установок) и получают понятный эффект. Отдельно считают цену ошибки: перегрев, троттлинг или падения под нагрузкой превращаются в потерянные дни.

Следующие шаги: как перейти от пилота к рабочему кластеру

Пилот дает цифры, но рабочий кластер требует дисциплины в документах и договоренностях. После тестов важно зафиксировать, что именно получилось, что не получилось и что нужно изменить до закупки.

Соберите минимальный пакет артефактов: 1 страницу требований (задачи, целевые сроки, ограничения по данным и доступу), 1 страницу рисков (питание, охлаждение, сеть, дефицит GPU, сроки поставки, безопасность), 2-3 конфигурации узла для сравнения и согласованную методику замеров (версии ПО, датасеты, правила прогрева и повторов). Отдельно подготовьте короткий файл для бюджета: метрики пилота, прогноз TCO на 3-5 лет и какие риски закрываются каждым пунктом.

Дальше продумайте масштабирование. При росте в 2 раза обычно первыми требуют пересмотра питание и резервирование в стойке, охлаждение и горячие точки, портовая емкость сети и задержки, а также storage и scratch.

Если нужно аккуратно пройти путь от эскиза и пилота до промышленного кластера, это часто делают вместе с системным интегратором. Например, GSE.kz (gse.kz) работает как производитель и интегратор в Казахстане: помогает собрать целевую архитектуру, подготовить план внедрения и выстроить поддержку, чтобы пилотные цифры превращались в устойчивую эксплуатацию.

FAQ

С чего правильно начинать проект HPC‑узла, а не с выбора «самого мощного» сервера?

Начинайте с 2–3 типовых задач и целевой метрики «время до результата» (wall time). Дальше проверьте ограничения площадки: сколько кВт реально доступно на стойку, выдержит ли охлаждение и есть ли запас по портам сети и I/O. Уже после этого выбирайте конфигурации узлов для пилота, иначе риск купить «быстрое железо», которое будет простаивать из‑за питания, температуры или данных.

Какие ограничения чаще всего ломают план плотной установки GPU в стойке?

Чаще всего первыми «вылезают» питание и охлаждение, а не вычисления. Затем обнаруживается, что сеть или хранилище не успевают кормить GPU, и ускорители простаивают. Реже, но болезненно, мешают физические ограничения: глубина стойки, вес, неудобный доступ для обслуживания.

Как понять, нужен ли максимум GPU на узел или более сбалансированная конфигурация GPU/CPU?

Ориентируйтесь на то, что ограничивает ваши задачи. Если это обучение и вычисления, которые хорошо масштабируются на GPU, имеет смысл повышать плотность GPU на узел, но только при подтвержденной готовности по кВт и охлаждению. Если у вас много CPU+MPI, препроцессинг/постпроцессинг или узкие места по памяти и I/O, сбалансированный узел даст более предсказуемое время расчета и меньше простоя ускорителей.

Как не ошибиться с выбором CPU для GPU‑узла?

Проверьте, сколько потоков CPU реально занято во время типового прогона и сколько памяти это требует. Частая ошибка — поставить много GPU, а затем упереться в CPU‑часть пайплайна, подготовку данных или лимит по RAM. Хороший ориентир — сначала зафиксировать профиль приложения (CPU‑время, ожидание I/O, коммуникации), и только потом выбирать число ядер и частоты.

Сколько ОЗУ нужно в узле с несколькими GPU и почему это часто недооценивают?

По умолчанию лучше закладывать память с запасом, чтобы исключить своп и «тихие» падения производительности при росте датасетов. Важно не только количество, но и конфигурация: симметричное заполнение каналов памяти часто дает больше пользы, чем попытка «выжать мегагерцы». На пилоте подтвердите потребление RAM по пику и по длительным прогонам, а не по короткому тесту.

По каким параметрам выбирать GPU под обучение, инференс и научные расчеты?

Смотрите на объем VRAM и то, какие режимы точности реально используются в ваших расчетах. Для обучения часто критичен именно объем VRAM и пропускная способность памяти ускорителя, а не «паспортные» TFLOPS. Для инференса важнее цена за запрос и энергопотребление при стабильной нагрузке, чтобы не упереться в лимиты по кВт.

Что такое PCIe‑топология и как она может «съесть» производительность GPU?

Даже мощные GPU могут работать медленно, если каждому досталась урезанная полоса PCIe или если сеть и NVMe делят одни и те же линии. На этапе проектирования проверьте, куда физически подключены GPU, сетевой адаптер и локальные диски, и как это связано с NUMA у CPU. На пилоте это видно по провалам загрузки GPU и росту времени на копирование/обмен, хотя «все устройства определяются».

Зачем в HPC‑узле локальные NVMe, если есть общее хранилище?

Локальный NVMe полезен как быстрый слой для scratch, кэша датасетов и чекпойнтов, чтобы не перегружать общее хранилище пиками чтения/записи. Даже при хорошем общем storage локальный слой часто дает более стабильное время итерации и меньше зависимость от нагрузки соседних пользователей. В пилоте заранее измерьте, сколько места нужно на один эксперимент и что важнее для вас: скорость записи, чтения или устойчивость к сбоям.

Когда для HPC хватит Ethernet, а когда нужна сеть с RDMA/InfiniBand?

Если задачи в основном независимые и редко синхронизируются между узлами, качественного Ethernet часто достаточно при условии, что хранилище и аплинки не становятся узким местом. Если у вас MPI, распределенное обучение и частые синхронизации, решающими становятся задержки и предсказуемость, и тогда стоит смотреть на RDMA‑сценарии. Лучший способ выбрать — на пилоте измерить долю времени на коммуникации и проверить, как меняется wall time при добавлении узлов.

Какие метрики на пилоте действительно помогают защитить бюджет и доказать эффект?

Минимальный набор — wall time, throughput (задач в неделю/час), загрузка GPU/CPU, простои из‑за I/O, фактическое потребление кВт·ч и признаки троттлинга. Обязательно фиксируйте версии BIOS/firmware, драйверов и библиотек, иначе сравнение «до/после» будет недоказуемым. Для защиты бюджета переводите результаты в понятные цифры: сколько часов команды вы экономите, сколько стоит простой GPU из‑за диска/сети и как это влияет на срок выполнения проектов.