03 окт. 2025 г.·8 мин

Пилотные тесты совместимости серверов с гипервизором

Пилотные тесты совместимости серверов с гипервизором: что проверить по сети, дискам, RAID/HBA, питанию и live migration, чтобы уверенно закупать партию.

Что именно проверяем и почему это важно

Пилотные тесты нужны, потому что «включилось и поставилось» не равно «будет жить в проде годами». До покупки большой партии серверов стоит убедиться, что конкретная модель железа, прошивки и драйверы ведут себя предсказуемо под вашим гипервизором и вашим набором настроек.

На практике пилот совместимости проверяет четыре зоны: функциональность, производительность, стабильность и управляемость.

Функциональность - это поддержка нужных режимов и возможностей (VLAN/LACP, passthrough, multipath, UEFI/Secure Boot, работа с RAID/HBA). Производительность - это реальные цифры пропускной способности и задержек, а не паспортные значения. Стабильность - отсутствие зависаний, ошибок драйверов, странных ребутов и деградаций под нагрузкой. Управляемость - возможность обслуживать узлы удаленно (BMC), обновлять прошивки и быстро восстанавливаться после сбоев.

Неприятности часто всплывают ближе к продакшену, когда нагрузка смешанная и постоянная. Например: сеть держит «скорость», но на пиках теряет пакеты; RAID-контроллер проходит синтетику, но под длительным random I/O растет latency; live migration работает, пока не включили шифрование или jumbo frames; BMC «виден», но уходит в таймауты при параллельных операциях.

Чтобы решение о закупке было уверенным, результаты должны быть измеримыми и повторяемыми. Заранее зафиксируйте, что вы считаете «прошло»:

версии гипервизора, BIOS/BMC, прошивок и драйверов
метрики: IOPS, latency (p95/p99), пропускная способность, время rebuild, время миграции
сценарии отказов: потеря линка, диск out, ребут узла, отключение питания
критерии стабильности: отсутствие критических ошибок в логах и самопроизвольных перезагрузок
повтор прогонов минимум 2 раза с одинаковым результатом

Если вы планируете кластер для госорганизации и берете серверы локального производителя (например, GSE.kz), в пилоте важно зафиксировать не только «совместимо», но и конкретный набор версий и настроек. Это заметно упрощает эксплуатацию и разговор с поддержкой.

Стенд пилота и базовые условия тестов

Пилот дает пользу только тогда, когда стенд похож на будущую боевую схему и все условия зафиксированы. Иначе вы измеряете не сервер, а случайные настройки.

Минимальный стенд обычно собирают так, чтобы сразу увидеть типовые проблемы с сетью, дисками и отказами:

2-3 одинаковых хоста (желательно из той же партии и с теми же опциями)
2 коммутатора для резервирования (разные uplink, разные VLAN при необходимости)
общее хранилище для тестов миграции (если его не будет в проекте - тестируйте локальные диски и выбранный способ репликации)
отдельная сеть управления (BMC/админка), чтобы не смешивать ее с трафиком ВМ

Дальше самое важное - «заморозить» версии и конфигурацию. Частая ошибка: один хост с обновленной прошивкой, второй нет, и вы получаете разные результаты без понятной причины.

Что фиксируем перед стартом

Запишите в один шаблон (таблицу) и не меняйте в ходе пилота без пометки причины:

версии BIOS/UEFI, BMC, прошивки RAID/HBA, драйверов сетевых карт
профиль питания (performance/energy saving), частоты CPU, Turbo, C-states
NUMA-настройки и распределение памяти (особенно для больших ВМ)
SR-IOV или другие offload-функции, если планируете их в проде

Чтобы результаты можно было защищать перед закупкой, заранее определите метрики. Обычно смотрят задержку и пропускную способность сети, IOPS и задержку дисков под нагрузкой, время восстановления при отказе и процент успешных миграций.

Журналирование делайте простым и повторяемым: включите централизованный сбор системных логов гипервизора и событий BMC, сохраняйте конфиги хостов, снимайте показатели в одинаковые интервалы и отмечайте каждое изменение (прошивка, кабель, порт, настройка).

Пример: если вы берете 3 узла для будущего кластера на серверах GSE, попросите, чтобы все приехали с одинаковыми версиями BIOS/BMC и одинаковыми NIC. Так вы быстрее поймете, где проблема: в железе, прошивке или настройках гипервизора.

Сеть: функциональность, производительность и отказоустойчивость

Сетевые проблемы в виртуализации почти всегда выглядят как «случайные подвисания»: то миграция не проходит, то storage отваливается, то VM теряют связь. Поэтому в пилот обязательно включите проверку не только скорости, но и тех настроек, которые чаще всего ломают кластер.

Сначала убедитесь, что гипервизор корректно видит сетевые карты и использует правильные драйверы. Проверьте ключевые функции на всех нужных сетях (management, storage, live migration): VLAN-теги, LACP/агрегацию, jumbo frames, а также offload-функции. Последние иногда дают «красивые» цифры в тесте и проблемы в реальной нагрузке.

Базовые проверки, которые лучше сделать в первую очередь:

совпадает ли MTU по всей цепочке: хост, vSwitch, физический коммутатор, аплинки (без «тихой» фрагментации)
нет ли ошибок конфигурации: перепутанных VLAN, дублирующихся IP, неверных шлюзов, асимметричных правил
отделены ли сети для управления, хранения и миграций, и нельзя ли случайно «смешать» трафик

Дальше измерьте пропускную способность и стабильность под нагрузкой: важны не только гигабиты в секунду, но и поведение при большом количестве потоков и мелких пакетов. Хороший признак - ровная скорость без резких провалов и без заметного роста задержек на длительном прогоне.

Отказоустойчивость проверяйте так, как это происходит в жизни:

выдернуть один линк/порт из LACP и посмотреть, есть ли обрыв сессий
перезагрузить коммутатор (или перевести в maintenance) и замерить время восстановления
поменять активный аплинк и проверить, не ломаются ли VLAN и MTU

Простой сценарий: два хоста в кластере, на одном идет нагрузка на VM и параллельно live migration. В момент миграции отключаете один физический порт. Если миграция падает, а VM теряют сеть, чаще всего причина в LACP, MTU или разделении сетей. Это лучше поймать до закупки партии серверов, особенно для типовых конфигураций, которые интеграторы вроде GSE.kz ставят в государственные и корпоративные контуры.

Диски и storage I/O: как проверить, что не будет сюрпризов

С дисками неприятности часто проявляются не в первый день, а через неделю: падает скорость, растет задержка, появляются ошибки под нагрузкой. Поэтому в пилот стоит закладывать не только быстрые бенчмарки, но и длительные прогоны.

Начните с инвентаризации. Зафиксируйте точные модели накопителей, тип (SSD/HDD, SATA/SAS/NVMe), прошивки, заявленный ресурс (TBW/DWPD для SSD) и поддерживаемые режимы. Важно, чтобы в партии потом приехало то же самое, иначе результаты пилота не повторятся.

Дальше проверьте производительность так, как она будет в реальной жизни: не только последовательное чтение, но и случайный доступ маленькими блоками. Прогоните одинаковые профили на нескольких конфигурациях (например, RAID10 vs RAID5, разные типы SSD), чтобы видеть честную разницу.

Короткий набор обязательных проверок:

чтение/запись: последовательные и случайные, блоки 4K, 8K, 64K, 1M
задержка и стабильность IOPS при росте очереди (queue depth)
длительный тест 8-24 часа: просадки, троттлинг SSD, рост ошибок
контроль SMART: ремапы, media errors, рост wear level
поведение при деградации: один диск в ошибке, rebuild, влияние на ВМ

Ищите не рекорды, а предсказуемость. Например, если на стенде с двумя узлами (условно на S200 Series) задержка записи резко растет каждые 10-15 минут, это повод проверить кеш контроллера, настройки энергосбережения и температуру накопителей, пока не закупили большую партию.

RAID и HBA: проверяем режимы, rebuild и сценарии отказов

Выбор между RAID-контроллером и HBA (или passthrough) лучше делать под требования гипервизора и вашей модели хранения, а не «по привычке». Если планируется локальное хранилище под датасторы, часто удобен аппаратный RAID. Если ставите SDS (когда дисками управляет платформа хранения), обычно нужен HBA в режиме IT/JBOD или passthrough.

Сначала убедитесь, что гипервизор корректно видит контроллер и диски: не только «появились в списке», но и работают ожидаемые функции. Проверьте очереди (queue depth), кеш контроллера, политику записи (write-back/write-through) и наличие защиты кеша (battery/supercap), если вы планируете write-back.

Минимум, который стоит сделать до закупки партии:

режим контроллера: RAID vs HBA/passthrough, корректная видимость всех дисков и SMART/статусов
политики кеша: write-back включается только когда это безопасно; после перезагрузки настройки не «сбрасываются»
производительность и задержки: сравните случайную запись/чтение и смешанную нагрузку на «чистом» массиве и при фоновых задачах
события и алерты: ошибки диска, деградация массива, восстановление должны попадать в логи и мониторинг

Отдельно прогоните rebuild. Важно не только то, что «он идет», а что происходит с ВМ в это время. Запустите типовую нагрузку (несколько ВМ с дисковой активностью) и симулируйте отказ одного диска. Зафиксируйте время rebuild и зависимость от размера диска и уровня RAID, просадку IOPS и рост латентности, а также поведение ВМ (таймауты, ошибки файловой системы, зависания).

Сценарии отказов лучше делать руками: выдернуть диск, поставить новый, проверить автоподхват, корректное назначение в массив, отсутствие «foreign configuration» и понятные шаги восстановления. И обязательно внесите в план пункт по прошивкам: версия firmware контроллера и драйвер гипервизора должны быть совместимы. На пилоте это дешевле, чем ловить редкие баги уже в продакшене, например на серверных платформах уровня GSE S200 Series.

Управление питанием и BMC: чтобы удаленное управление работало

Спланируйте кластер без сюрпризов

Оценим состав кластера, сети и хранения под вашу нагрузку и требования HA.

Рассчитать проект

Даже если сервер отлично проходит проверки по CPU и дискам, проблемы с BMC часто всплывают позже: не видны датчики, не работает удаленная консоль, после обновления пропадает доступ. Это прямой риск простоя, потому что многие аварийные действия делаются удаленно.

Сначала проверьте, что мониторинг показывает реальную картину железа: температуры CPU и корпуса, обороты вентиляторов, напряжения и блоки питания, события (System Event Log). Важно не только наличие данных, но и их адекватность: одинаковые серверы должны показывать близкие значения при одной нагрузке.

Дальше протестируйте профили питания. Переключите performance, balanced и энергосбережение и измерьте, как меняются задержки (например, пинг между хостами и простая нагрузка ВМ). Иногда энергосбережение дает заметные пики задержек, и это потом мешает кластерам и базам данных.

Минимальный набор проверок BMC перед закупкой партии:

включение, выключение, перезагрузка и правильные статусы питания
удаленная консоль (KVM), монтирование образа и загрузка с него
доступность по выделенной сети управления, отдельные учетки и права
сохранность настроек после обновления прошивки и перезагрузок
корректные логи и события при перегреве и пропадании питания

Практический сценарий: на одном тестовом сервере (например, из линейки GSE S200) под контролем и безопасно создайте условия, при которых будет расти температура, и убедитесь, что BMC фиксирует рост, поднимает тревогу и записывает событие. Отдельно проверьте, что после имитации отключения одного БП сервер не уходит в неожиданный reset, а журнал корректно отмечает потерю питания.

Live migration и HA: проверяем миграции и восстановление

Live migration и HA часто выглядят «работающими» только до первого реального инцидента. В пилоте важно подтвердить не только факт миграции, но и то, что она предсказуема по времени, не ломает сеть и не создает заметной паузы для пользователей.

Сначала выровняйте хосты. На практике миграции часто срываются из-за различий в CPU features и настройках BIOS. Проверьте, что на всех узлах одинаковые версии прошивок, включены нужные режимы виртуализации, одинаковые параметры энергосбережения, а также согласован «совместимый» режим CPU (если ваш гипервизор его использует). Иначе миграция может работать только между «похожими» узлами.

Дальше тестируйте миграцию под нагрузкой. Запустите 2-3 ВМ с реальными профилями: одна с активным диском (журналирование или тест записи), другая с сетевым трафиком, третья с приложением, где заметна задержка (VDI, терминальный сервер). Мигрируйте их по очереди и одновременно.

Что обязательно прогнать и зафиксировать:

миграция ВМ в простое и под нагрузкой: время, процент неуспешных попыток, повторяемость
влияние на пользователей: пауза в приложении, потери пакетов, таймауты сессий
сбой сети миграции: отключить порт или VLAN и убедиться, что ВМ не «падает» и есть понятная ошибка
отказ хоста: принудительная перезагрузка одного узла и проверка автоматического перезапуска ВМ на соседнем
балансировка ресурсов (аналог DRS): перенос ВМ при перегрузке CPU/RAM и отсутствие «пинг-понга»

Пример: если вы планируете кластер на стойках GSE S200 Series, сделайте минимум две миграционные сети (основная и резерв) и проверьте, что при потере одной из них миграции либо корректно переключаются, либо безопасно блокируются, не создавая простоя сервисов.

Результат пилота здесь должен быть формальным: список условий, при которых миграция разрешена, и измеримые пороги (например, максимальная пауза и допустимое время восстановления после перезагрузки узла).

Пошаговый план пилота на 5-10 рабочих дней

Проведите пилот перед закупкой

Поможем организовать пилот совместимости под ваш гипервизор и сценарии отказов.

Запросить пилот

Пилот лучше проводить на минимальном, но честном стенде: 2 хоста (для миграций) и, если планируется SAN, один тестовый массив или хотя бы тот же тип HBA и кабелей, что будет в закупке. Сразу договоритесь, что вы фиксируете как «эталон»: версии BIOS, BMC, прошивки RAID/HBA, драйверы, версию гипервизора и настройки.

План по дням

Ниже пример, который обычно укладывается в 5-10 дней (в зависимости от числа сценариев и скорости согласований):

День 1: зафиксируйте прошивки и поставьте гипервизор на два хоста. Проверьте, что все устройства определились без «ручной магии» и драйверы ставятся штатно.
День 2: настройте сеть по вашему шаблону (VLAN, bonding/teaming, отдельные сети для management и migration). Прогоните MTU (включая jumbo frames, если нужны), проверьте отказ одного порта, одного коммутатора (если есть пара) и восстановление.
День 3-4: соберите storage-профили (RAID уровни, кеш, политика записи, очереди). Прогоните I/O тесты на чтение и запись, проверьте задержки под нагрузкой, затем имитируйте отказ диска и оцените rebuild (время, падение производительности, поведение кеша).
День 5: включите мониторинг (алерты по дискам, RAID, температуре, питанию), обновите прошивки до согласованного набора и повторите ключевые тесты, чтобы исключить регресс.
День 6-7: протестируйте live migration, HA и сценарии сбоев: перезагрузка хоста, отключение сети миграции, «потеря» одного пути к хранилищу, возврат ВМ после восстановления.

После технической части оформите протокол так, чтобы его мог повторить другой инженер: условия стенда, точные версии и настройки (командами или скриншотами), метрики (скорость, IOPS, задержка, время rebuild и migration), а также список проблем с приоритетом и способом воспроизведения. Если серверы планируются от локального производителя вроде GSE.kz, такой протокол полезно сразу приложить к диалогу с поддержкой.

Частые ошибки в пилотных тестах

Пилот часто проваливается не из-за «железа», а из-за мелочей, которые не зафиксировали в начале. Итог выглядит как случайные сбои: то миграция не проходит, то задержки скачут, то диски внезапно «проседают».

Самые типичные ошибки:

разные версии BIOS/UEFI и прошивок на узлах кластера. На одном сервере обновили microcode, на другом нет, и live migration становится нестабильной
тестируют только среднюю скорость, но не проверяют отказ линка и восстановление. Сеть может быть «быстрой», но при обрыве порта LACP/teaming переключается долго, и ВМ кратко теряют связь
RAID/HBA проверяют в штатном режиме, но пропускают rebuild. На практике именно во время rebuild вылезают таймауты, рост latency и ошибки в драйвере
оставляют профили питания по умолчанию. Авто-энергосбережение и агрессивные C-states дают непредсказуемые задержки, особенно на storage I/O и при пиковой нагрузке
не разделяют сети управления, хранения и миграции. Когда трафик конкурирует на одних и тех же портах, «виноватым» кажется гипервизор, хотя проблема в дизайне сети

Короткий пример: на стенде два узла проходят нагрузочный тест, но при миграции ВМ раз в 10 попыток зависает. После сверки выясняется, что на одном узле включен другой режим SR-IOV и стоит более свежая прошивка NIC. Привели версии к одному набору, повторили тест с теми же настройками - проблема исчезла.

Чтобы таких сюрпризов было меньше, заранее договоритесь о дисциплине пилота:

зафиксируйте матрицу версий: BIOS, BMC, NIC, HBA/RAID, драйверы гипервизора
записывайте параметры каждого прогона (нагрузка, количество ВМ, MTU, профили питания)
включите «негативные» проверки: обрыв порта, отказ диска, rebuild, перезагрузка BMC
сравнивайте результаты только при одинаковой конфигурации и одинаковых настройках

Если пилот идет с интегратором, просите итоговый отчет именно в таком формате: что проверяли, на каких версиях, что воспроизводится и как это исправляется. Тогда решение о закупке будет опираться на факты, а не на удачный день стенда.

Короткий чеклист перед решением о закупке

Перед тем как подписывать спецификацию и брать большую партию, полезно пройти короткий контрольный список. Он помогает не спорить «по ощущениям», а принять решение по фактам. Результаты фиксируйте сразу, пока стенд собран и все можно быстро перепроверить.

Проверьте ключевые зоны и отметьте «да/нет» по каждой. Если хотя бы один пункт не проходит, лучше остановиться и разобраться, чем потом лечить проблемы в продакшене.

Сеть: MTU одинаковый на коммутаторах, серверах и в настройках гипервизора. LACP поднимается без «флапов». При отключении одного порта трафик и управление продолжают работать без обрывов сессий дольше нескольких секунд.
Диски и storage I/O: 4-8 часов стабильной нагрузки без ошибок в логах и без деградации скорости. Температуры дисков и контроллеров не уходят в критическую зону, нет троттлинга, нет внезапных таймаутов.
RAID или HBA: нужный режим (RAID, HBA passthrough, cache policy) реально работает и не «сбрасывается» после перезагрузки. Rebuild укладывается в приемлемое окно, а отказ одного диска не валит хост и не приводит к зависанию виртуальных машин.
BMC и питание: удаленная консоль доступна и стабильна, события пишутся в журнал, корректно работают power on/off и перезагрузка. Пароли и роли доступа понятны, есть способ восстановить доступ без «физического визита».
Live migration и HA: миграции проходят сериями, под нагрузкой и в обе стороны между хостами. После тестового падения хоста виртуальные машины поднимаются ожидаемым образом, без длительных «подвисаний» и повреждения файлов.

В конце должен быть короткий протокол: версии прошивок и драйверов, модели сетевых карт и контроллеров, настройки (MTU, LACP, режим RAID/HBA), результаты тестов и итог «годен/не годен». Это особенно важно для закупки в организации, где решение должно быть проверяемым и воспроизводимым.

Пример сценария: пилот перед закупкой серверов для кластера

Сделайте партию одинаковой

Поможем закрепить эталонные версии BIOS BMC и комплектующих для всей партии.

Согласовать поставку

Компания готовит обновление ЦОДа под круглосуточные сервисы и планирует закупить 40 одинаковых серверов в один кластер. Ошибка в совместимости с гипервизором на этом масштабе быстро превращается в простой, ночные выезды и споры с поставщиками. Поэтому пилот проводят на минимальном, но честном стенде.

Стенд собирают из трех одинаковых серверов (будущая целевая модель), двух коммутаторов и типового набора из 10 виртуальных машин: база, пара приложений, файловый сервис и одна VM с высокой дисковой нагрузкой. Сразу фиксируют версии: прошивки BIOS/BMC, прошивку RAID или HBA, драйверы, версию гипервизора и настройки сети (bonding, VLAN, MTU).

Первые тесты проходят, но в нагрузке всплывают два сюрприза. Во время live migration часть миграций зависает или идет в 3-4 раза дольше. Параллельно на дисковой подсистеме появляются пики задержек, а после имитации отказа диска rebuild сильно просаживает производительность, и некоторые VM начинают подвисать.

Разбор показывает типичную связку причин: устаревшая прошивка RAID-контроллера и неудачный режим кеша. После обновления прошивок (включая сетевые карты), переключения политики кеширования и повторной настройки очередей I/O тесты прогоняют заново.

Перед финальным выбором делают короткую контрольную серию:

миграции VM при параллельной нагрузке на сеть и диски
отказ одного линка и одного коммутатора с сохранением доступности
rebuild массива (или деградация путей на HBA) с замером задержек
перезагрузка узла и проверка автозапуска VM/HA
управление питанием через BMC (включая доступы и роли)

По итогам фиксируют «эталонную конфигурацию» для закупки: точные модели NIC и HBA/RAID, версии прошивок, настройки кеша, параметры сети и список проверок приемки. Если закупка идет через интегратора, например GSE.kz, это удобно оформить как обязательные требования к поставке и дальнейшему сопровождению, чтобы вся партия приехала в одинаковом, проверенном состоянии.

Следующие шаги после пилота и как закрепить результат

После пилота важно не просто сказать «работает», а зафиксировать, что именно проверили и в каких условиях. Иначе при закупке партии легко получить другую ревизию NIC, иной контроллер или прошивку, и результаты перестанут быть актуальны.

Соберите матрицу совместимости в одном документе: модель сервера, сетевые карты, RAID или HBA, типы дисков, версии прошивок (BIOS, BMC, контроллеров), версия гипервизора и драйверов. Это потом станет опорой и для закупки, и для поддержки.

Заранее определите критерии приемки и владельцев решения: что считается успешным (стабильные live migration, корректный rebuild RAID, отсутствие ошибок драйверов под нагрузкой) и кто подписывает итог. Подпись важна не «для галочки», а чтобы у тестов был официальный статус.

Заложите время на обновления и повторные прогоны. Обновили BIOS или прошивку RAID? Повторите ключевые сценарии. Это нормальная часть пилота.

Чтобы партия была одинаковой, сделайте эталонный профиль настроек:

BIOS и режимы питания
настройки BMC и учетные записи доступа
сетевые параметры (MTU, VLAN, bonding, offload)
режимы RAID или HBA (passthrough, cache policy)

Дальше закрепите результат планом внедрения: кто и как применяет эталонные профили, как проверяется соответствие каждой поставки матрице, и какие тесты повторяются при приемке.

Если не хватает рук или нужен независимый взгляд на стенд и интеграцию, можно привлечь GSE.kz как производителя и системного интегратора: помочь подобрать конфигурацию под гипервизор, зафиксировать «золотые» настройки и провести повторяемые пилотные испытания перед закупкой партии.

FAQ

Зачем вообще делать пилот, если сервер «ставится и запускается»?

Пилот нужен, чтобы подтвердить, что именно ваша связка «модель сервера + прошивки + драйверы + гипервизор + настройки» ведет себя предсказуемо под длительной смешанной нагрузкой. Это снижает риск купить партию, которая в синтетике выглядит нормально, а в продакшене дает сбои, таймауты или нестабильные миграции.

Что именно обязательно проверить в пилоте совместимости?

Фиксируйте четыре блока: функциональность (нужные режимы вроде VLAN/LACP, Secure Boot, multipath), производительность (пропускная способность и задержки), стабильность (нет зависаний, ребутов и критических ошибок в логах), управляемость (BMC, обновления, восстановление после отказов). Если хотя бы один блок «плавает», лучше выяснить причину до закупки.

Какой минимальный стенд нужен, чтобы пилот был честным?

Соберите стенд, похожий на будущую схему: минимум 2 одинаковых хоста для миграций, по возможности два коммутатора для резервирования, отдельная сеть управления и тот тип хранения, который будет в проекте. Чем ближе стенд к бою, тем меньше сюрпризов при внедрении.

Какие версии и настройки нужно зафиксировать, чтобы результаты были повторяемыми?

Заморозьте версии и настройки до старта: BIOS/UEFI, BMC, прошивки RAID/HBA и дисков, драйверы NIC, версию гипервизора, профиль питания, параметры NUMA и сетевые опции (MTU, offload, SR-IOV). Если что-то меняете, отмечайте причину и повторяйте ключевые прогоны, иначе сравнивать результаты будет невозможно.

Как быстро поймать типовые проблемы сети в виртуализации?

Начните с базовой гигиены: одинаковый MTU по всей цепочке, корректные VLAN, отсутствие конфликтов IP и четкое разделение сетей (управление, storage, миграции). Затем проверьте не только скорость, но и потери пакетов и рост задержек на длительном прогоне, а также поведение при отказах портов и коммутатора.

Какие тесты дисков и storage I/O реально показывают будущие проблемы?

Проверяйте не паспортные цифры, а стабильность под тем профилем, который будет у ваших ВМ: случайные операции малыми блоками, смешанное чтение/запись и длительный прогон 8–24 часа. Обязательно смотрите задержки p95/p99 и логи, потому что «средняя скорость» часто скрывает пики, из-за которых начинают тормозить приложения.

Как понять, что мне нужен RAID-контроллер, а не HBA (и что проверить)?

Сначала подтвердите, что выбранный режим соответствует вашей модели хранения: аппаратный RAID для локальных датасторов или HBA/JBOD/passthrough для SDS. Затем проверьте, что политики кеша и параметры очередей работают ожидаемо и не сбрасываются после перезагрузок, а события деградации и восстановления корректно попадают в логи и мониторинг.

Как правильно тестировать rebuild массива и отказ диска, чтобы не обмануться?

Rebuild нужно мерить в «боевом» окружении: запустите типовую нагрузку ВМ и только потом имитируйте отказ диска. Зафиксируйте время восстановления, просадку IOPS, рост задержек и влияние на ВМ (таймауты, зависания, ошибки), потому что именно на rebuild часто проявляются проблемы прошивок, кеша и драйверов.

Что обязательно проверить в BMC, чтобы потом не ездить в серверную?

Сначала убедитесь, что BMC стабильно доступен по выделенной сети управления, корректно показывает датчики и пишет события, а удаленная консоль и монтирование образов работают без таймаутов. Затем проверьте сохранность настроек после обновлений и перезагрузок, потому что проблемы с BMC часто превращаются в простой из-за невозможности удаленного восстановления.

Как проверить live migration и HA так, чтобы результаты были полезны перед закупкой?

Сделайте хосты максимально одинаковыми по прошивкам и настройкам CPU/BIOS, иначе миграции могут срываться «без причины». Дальше прогоните миграции сериями под нагрузкой, измерьте время и процент неудач, а также проверьте HA через принудительную перезагрузку узла и отказ сети миграции, чтобы увидеть реальное время восстановления сервисов.