17 дек. 2025 г.·8 мин

Чек-лист конфигурации Dell PowerEdge R760 для БД и DWH

Чек-лист конфигурации Dell PowerEdge R760: NUMA, частоты памяти, выбор RAID или HBA, NVMe и сеть, плюс короткий план нагрузочного теста для приемки.

Зачем нужен чек-лист именно для БД и DWH

Сервер под БД и DWH часто выглядит "мощным на бумаге", но в работе дает странные провалы. То все быстро, то запросы внезапно зависают на секунды, ночная загрузка то укладывается в окно, то срывает его. Чек-лист нужен не для галочки, а чтобы получить стабильную, предсказуемую систему, которую легко принять у поставщика и дальше поддерживать.

Типичные симптомы неверной конфигурации проявляются не сразу, но дорого обходятся в эксплуатации: пики задержки на дисках, просадки IOPS при параллельных запросах, "пилящая" скорость чтения или записи, очереди в хранилище, всплески CPU при тех же данных. Например, DWH может уверенно грузить данные 20 минут, а затем внезапно упереться в задержку NVMe или перекос NUMA и растянуть загрузку вдвое.

Для баз данных обычно важнее всего две вещи: предсказуемая задержка и стабильная пропускная способность. "Много ядер" помогает не всегда. Если память работает не на той частоте, каналы заполнены неравномерно, диски собраны "как попало", а сеть не держит задержку под нагрузкой, производительность будет гулять даже при одинаковом количестве vCPU и гигабайт.

Перед закупкой стоит согласовать три набора требований. Без них любые разговоры про NUMA, память, NVMe, RAID/HBA и сеть будут напоминать гадание:

Профиль нагрузки: OLTP, аналитика, смешанный режим, доля чтения/записи, параллелизм, размеры рабочих наборов.
Рост: как быстро растут данные, индексы, временные таблицы, сколько будет одновременных пользователей или задач ETL.
Отказоустойчивость: что считается простоем, нужна ли горячая замена, зеркалирование, резервное копирование и как быстро требуется восстановление.

Когда вводные зафиксированы, выбор и настройка железа перестают быть "магией" и превращаются в проверяемые пункты приемки.

Сначала фиксируем профиль нагрузки и цели

Перед тем как собирать конфигурацию Dell PowerEdge R760 под БД и DWH, стоит описать, что именно сервер будет делать каждый день. Один и тот же "мощный" набор железа может дать разные результаты, если промахнуться с профилем нагрузки.

OLTP обычно упирается в задержку: много коротких транзакций, частые записи, чувствительность к NUMA и скорости отдельного ядра. DWH чаще любит широкую параллельность: длинные запросы, сканы больших таблиц, интенсивное чтение, тяжелые сортировки и агрегации. Смешанный профиль (витрины и транзакции на одном узле) самый рискованный: там легко получить конфликт за CPU-кеш, память и дисковую очередь.

Чтобы дальше не спорить "на глаз", заранее согласуйте метрики приемки:

OLTP: TPS и 95/99 перцентиль задержки на ключевых операциях.
DWH: скорость скана (ГБ/с) и время выполнения типовых отчетов.
Загрузка данных: время батча и стабильность при параллельных джобах.
Бэкап: укладывается ли в окно и как влияет на рабочую нагрузку.

Отдельно зафиксируйте ограничения площадки. Питание и охлаждение важны не только для надежности, но и для предсказуемой частоты CPU и памяти. Место в стойке, шум, доступность 10/25/100GbE портов и требования по сегментации сети влияют на итоговую схему. В госсекторе и регулируемых отраслях заранее проверьте требования по происхождению оборудования и срокам поставок: иногда это меняет решение в пользу локально произведенных систем и услуг интегратора, чтобы закрыть закупочные правила и поддержку.

Простой ориентир: если вы планируете ночную загрузку 6 часов и дневные отчеты, цель может звучать так: "батч до 05:00 при параллельности N, дневной отчет до 2 минут". После этого уже осмысленно выбирать CPU, память, NVMe и сеть под конкретные цифры, а не под максимальную конфигурацию.

CPU: частота, ядра и план роста

Для баз данных и DWH выбор CPU в Dell PowerEdge R760 почти всегда сводится к компромиссу: больше ядер для параллельных задач или выше частота для быстрых одиночных запросов и операций, чувствительных к задержке. Сразу заложите не только текущую нагрузку, но и рост на 12-24 месяца.

Если у вас много коротких запросов, активные транзакции, высокие требования к времени ответа и неидеальные планы запросов, чаще выигрывает более высокая частота на ядро и меньшее число ядер. Если основной профиль - длинные аналитические запросы, сканы, агрегации и параллельная обработка, обычно важнее общее число ядер и способность держать много потоков одновременно.

Как прикинуть потребность в CPU под БД и фон

CPU в DWH тратится не только на запросы пользователей. Его часто "съедают" фоновые работы: загрузки (ETL/ELT), построение и перестроение индексов, компрессия, статистика, партиционирование, шифрование, репликация. Полезно заранее разделить бюджет процессора: сколько вы отдаете интерактивным запросам и сколько - ночным задачам, которые легко расползаются на день.

Быстрая самопроверка:

Есть ли окна, когда ETL и отчеты идут одновременно.
Нужна ли предсказуемая задержка (SLA) для части запросов.
Планируется ли активное использование компрессии, шифрования или тяжелых функций.
Требуется ли запас под рост объема данных и числа пользователей.

Вертикальный рост или кластер

Заранее решите, как будете масштабироваться: вертикально (добавлять CPU/память в один сервер) или через кластер/шардинг (добавлять узлы). Вертикальный путь проще в эксплуатации, но упирается в потолок одного узла и может быть дороже при апгрейде. Кластер дает гибкость и отказоустойчивость, но требует дисциплины в сетях, хранении и администрировании.

Если вы работаете с интегратором, попросите сразу два варианта: "максимум в один узел" и "с заделом под несколько узлов", чтобы сравнить не только цену, но и риски при росте.

NUMA: базовые принципы и практические настройки

NUMA простыми словами - это "память рядом с вашим процессором". В двухсокетном сервере каждый CPU имеет свою локальную память. Доступ к ней быстрее, чем к памяти, которая физически подключена ко второму CPU. Для баз данных и DWH это критично: если поток постоянно ходит в "чужую" память, растут задержки, а производительность становится менее предсказуемой.

NUMA чаще всего начинает мешать при параллельных запросах, больших сканированиях и смешанной нагрузке (одновременно ETL и отчеты). Типовые симптомы: плавающие задержки, неожиданные пики времени ответа, просадки при росте числа потоков, а также ситуация, когда CPU загружены, а ускорения от добавления ядер почти нет.

Закрепление (affinity) полезно, когда нужна повторяемость: например, один NUMA-узел под основную БД, второй - под фоновые загрузки. Это не всегда обязательно, но часто помогает при строгих SLA и перекосах по узлам.

Быстрая проверка на уровне ОС:

lscpu | egrep "Socket|NUMA"
numactl --hardware

Что смотреть в цифрах:

Память разложена симметрично по NUMA-узлам (без ситуации "на узле 0 90% RAM, на узле 1 почти пусто").
Под нагрузкой нет устойчивого перекоса: один узел забит по CPU и памяти, второй простаивает.
Если в BIOS включено Node Interleaving, NUMA фактически размывается. Для БД чаще выгоднее оставить NUMA видимым и уже осознанно управлять размещением.

Пример: DWH делает параллельное чтение с NVMe и сортировки. Если часть воркеров оказывается на CPU1, а память выделяется в основном на узле CPU0, задержка растет, и время запроса становится "пилообразным" от запуска к запуску. Симметрия памяти и разумный affinity обычно убирают эти сюрпризы.

Память DDR5: объем, частоты и раскладка по каналам

Для БД и DWH память часто упирается не только в объем, но и в скорость. Если запросы постоянно читают из RAM, лишние гигабайты уже не помогают. Тогда важнее частота DDR5 и стабильные задержки: быстрее работают сканы, хэш-джойны, сортировки и построение индексов.

Компромисс простой: больше модулей обычно дает больше объема, но может снизить частоту. На многих платформах при установке двух модулей на канал контроллер памяти нередко переходит на более низкую частоту, чем с одним модулем. На практике это выглядит так: добавили планки, получили больше RAM, но часть запросов стала выполняться дольше, особенно те, что активно гоняют данные по памяти.

Как прикинуть объем под БД и DWH:

Для OLTP сначала оцените рабочий набор данных (самые горячие таблицы и индексы). Хорошая цель - чтобы он помещался в кэш, плюс запас под служебные структуры.
Для DWH добавьте память под параллельность: сортировки, хэш-агрегации, временные таблицы и ETL. Чем больше одновременных тяжелых запросов, тем больше нужен запас.
Оставляйте резерв под ОС и пики. Практично держать 15-25% свободными, чтобы система не уходила в своп и не резала память под запросы в самый неподходящий момент.

Пример: сервер под ночные загрузки и дневные отчеты. Днем важна предсказуемая задержка, поэтому лучше начать с правильной раскладки по каналам и более высокой частоты. Ночью можно съесть часть запаса под параллельные сортировки, но не ценой постоянного проседания памяти.

Простая проверка при приемке:

Сверьте фактическую частоту памяти в BIOS/iDRAC и в ОС, а не только в спецификации модулей.
Убедитесь, что модули распределены равномерно по каналам CPU (симметрия важна для пропускной способности).
Проверьте, нет ли неожиданного понижения частоты из-за заполнения всех слотов.
Прогоните короткий тест на чтение/запись памяти и сравните с ожидаемым уровнем для выбранной раскладки.
Зафиксируйте настройки и результат в акте приемки, чтобы позже было с чем сравнивать.

Диски: RAID или HBA, NVMe и разнесение потоков

Поддержка чтобы не плыла конфигурация

Организуем обновления прошивок, мониторинг дисков и сети и поддержку 24/7 по регламенту.

Настроить сопровождение

Для БД и DWH дисковая подсистема чаще ломает ожидания не по пиковым IOPS, а по задержке и предсказуемости. Поэтому важнее разнести роли и не смешивать разные типы нагрузки в одном пуле.

Минимальная логика разнесения:

ОС и служебные разделы: отдельно.
Данные: отдельный набор NVMe под основной массив.
Журналы (WAL/redo/transaction log): отдельный набор с приоритетом на стабильную низкую задержку записи.
Temp/scratch (tempdb, sort, spill): отдельно от данных и журналов.
Бэкапы: отдельный носитель или отдельный пул, чтобы не душить рабочие операции.

Выбор RAID или HBA passthrough зависит от того, где вы хотите управлять отказоустойчивостью. Если вы используете программный RAID/Storage Spaces/ZFS или механизмы СУБД и файловой системы, часто берут HBA passthrough, чтобы ОС видела диски напрямую. Аппаратный RAID уместен, когда нужна простая схема (например, зеркала под ОС) или когда команда привыкла диагностировать и обслуживать массивы на уровне контроллера.

По NVMe важен не только класс диска, но и то, как вы набираете производительность. Для DWH загрузки и сортировки часто упираются в параллелизм: несколько NVMe среднего объема могут дать более ровное распределение очередей, чем один большой. Для журнала, наоборот, важнее ресурс записи (DWPD/TBW) и стабильная задержка, чем максимальная скорость чтения.

Пример: под DWH можно оставить два SSD в зеркале под ОС, отдельную пару NVMe под журналы, а 4-8 NVMe - под данные и temp, чтобы тяжелые сортировки не били по журналу.

Перед заказом и приемкой полезно задать интегратору конкретные вопросы: какой ресурс записи у выбранных NVMe и на какой срок его хватит при ваших объемах, как трактуется износ в гарантийных условиях, какой режим контроллера планируется (RAID/HBA) и где будет точка мониторинга отказов, какая ожидаемая задержка на записи для журнального тома при типовой нагрузке, как организованы горячая замена и восстановление массива/пула.

Сеть: пропускная способность, сегментация и стабильность задержки

Для БД и DWH сеть часто становится "тихим" ограничением: сервер быстрый, диски быстрые, а загрузки и репликация упираются в порт, коммутатор или настройки. Заранее решите две вещи: сколько трафика будет идти одновременно и как вы его разделите.

По скорости и числу портов ориентируйтесь на роли. 10GbE обычно хватает для доступа приложений к одной БД средней нагрузки. Для активных ночных загрузок DWH, репликации между узлами и быстрых бэкапов чаще разумнее 25GbE (2 порта) или 100GbE, если есть большой кластер и узкое окно обслуживания. Лучше иметь отдельные физические порты под разные потоки, чем пытаться держать все на одном канале.

Разделение сетей снижает взаимное влияние и упрощает диагностику:

Клиентский трафик приложений к БД.
Репликация или межузловой трафик (если есть).
Бэкап/restore и массовые загрузки (ETL).
Управление (например, iDRAC/host management).

Чтобы не ловить неожиданные узкие места, проверьте базовые настройки. VLAN используйте не для "красоты", а для изоляции. LACP полезен для отказоустойчивости и суммарной пропускной способности, но один большой поток часто не ускорит - выигрывают параллельные потоки. MTU 9000 (jumbo frames) имеет смысл только если он одинаковый от сервера до получателя, иначе получите странные потери и падение скорости.

При приемке важнее не "линк поднялся", а реальные цифры. Замерьте скорость в обе стороны между сервером и целевой точкой (хранилище, узел реплики, бэкап-сервер) и проверьте стабильность задержки под нагрузкой. Простая практика: параллельно гоняйте трафик (пропускная способность) и смотрите пинг на том же сегменте (задержка и потери). Если пинг плавает, загрузки и запросы будут нестабильны даже при красивых гигабитах в спецификации.

BIOS, прошивки и базовые настройки ОС

Перед тем как ставить СУБД и начинать тесты, приведите сервер к предсказуемому состоянию. Одна и та же конфигурация на бумаге может вести себя по-разному из-за версии BIOS, микрокода CPU, прошивки NVMe и сетевых адаптеров.

Сначала обновляют базовые компоненты до согласованных версий и фиксируют их в акте приемки:

BIOS и microcode CPU.
iDRAC и Lifecycle Controller.
Прошивки RAID/HBA и backplane.
NVMe SSD (firmware) и драйверы хранилища в ОС.
NIC (прошивка, драйвер, опции offload).

Дальше проверьте энергопрофиль. Для БД и DWH обычно выбирают режим Performance и отключают агрессивное энергосбережение (глубокие C-states, лишние лимиты power management), чтобы задержка была ровнее. Цена понятная: выше потребление и тепловыделение, больше требования к охлаждению и шуму. Если сервер стоит в плотной стойке, заранее убедитесь, что по питанию и температуре есть запас.

Если планируется виртуализация, включите VT-x/VT-d, но не полагайтесь на автоматику планировщика. Для критичных БД чаще заранее резервируют vCPU и память, включают huge pages, делают pinning по NUMA-узлам и не допускают переподписки ресурсов на хосте. Это снижает риск плавающих задержек на пике.

И сразу настройте сбор фактов, чтобы потом не гадать, где узкое место. Минимальный набор: загрузка CPU по сокетам, частоты и throttling, NUMA local/remote memory, latency дисков (p95/p99), очередь I/O, ошибки NVMe, загрузка NIC и drops, температура и power draw. Эти метрики лучше снять до и после нагрузочного теста и сохранить вместе с версиями прошивок и драйверов.

Короткий план нагрузочного теста для приемки (пошагово)

Поставка и внедрение через GSE

Как производитель и интегратор, GSE поможет собрать и внедрить решение под ваши требования к SLA.

Обсудить поставку

Приемка сервера под БД и DWH - это не "бенчмарк ради цифр", а быстрый способ убедиться, что сборка соответствует спецификации, а под нагрузкой нет сюрпризов: провалов по задержке, ошибок дисков или проблем с сетью.

Сверьте фактическое железо с заказом: модель CPU, число сокетов, объем и раскладку RAM по каналам, состав NVMe, модель и скорость NIC, версии BIOS, iDRAC и прошивок.
Дайте короткую дисковую нагрузку на чтение и запись (отдельно). Важно не только "скорость", но и стабильность задержек: средняя и p95/p99, плюс ошибки в логах.
Проверьте память и NUMA. Цель - убедиться, что процессы теста используют локальную память своего узла и что удаленная память заметно медленнее. Если разницы нет или она странная, ищите ошибку в настройках.
Прогоните сетевой тест на пропускную способность и потери. Для DWH важна стабильность: без дропов, ретрансмитов и скачков задержки.
Сделайте мини-тест, похожий на ваш профиль: короткая загрузка данных плюс типовой запросный набор на 15-60 минут, либо синтетика с той же долей чтения/записи и параллельностью.

Тесты проводите в одинаковых условиях: один и тот же план электропитания, режимы BIOS, версия ОС и драйверов, без лишних фоновых задач.

В акт приемки обычно заносят:

Конфигурацию и версии прошивок, ключевые BIOS/OS параметры (включая NUMA-политику).
Метрики по дискам: IOPS/MBps, средняя и p95/p99 задержка, температура, ошибки.
Метрики по CPU/RAM: загрузка, частоты, признаки троттлинга, NUMA-статистика.
Метрики по сети: скорость, потери, ретрансменты, задержка.
Условия теста: инструменты и версии, длительность, размер набора данных, число потоков.

Частые ошибки, которые потом дорого исправлять

Самая обидная ситуация - сервер "по спецификации мощный", но в реальной базе данных или DWH упирается в узкое место, которое можно было убрать на этапе заказа.

Ошибка 1: гонимся за ядрами, забывая про баланс

"Больше ядер" не всегда значит "быстрее запросы". Если памяти мало, она медленная, или дисковая подсистема не успевает, ядра простаивают. Это особенно заметно на ETL и тяжелых джойнах, где важны пропускная способность памяти и стабильный I/O.

Ошибка 2: смешиваем разные потоки на одних и тех же дисках

Когда журналы транзакций, temp, данные и бэкапы живут в одном пуле, пики нагрузки начинают мешать друг другу. В итоге простая операция (например, ночная загрузка) резко ухудшает отклик дневных запросов.

Еще несколько промахов, которые встречаются чаще всего:

Выбирают максимум ядер, но экономят на памяти и дисках, и производительность не растет.
Кладут логи и данные вместе, а потом удивляются провалам по задержке.
Делают RAID для NVMe по привычке, не думая о том, как пережить отказ диска и сколько займет восстановление.
Ставят модули памяти разного объема или скорости, и весь набор работает на более низкой частоте.
Оставляют сеть "на сдачу": один порт, общий трафик для всего, и никто не меряет реальную скорость и задержку.

Пример: DWH грузится ночью, а днем работают отчеты. Если загрузка и отчеты делят один и тот же дисковый пул и один сетевой интерфейс, вы получите жалобы пользователей, хотя формально ресурсов "достаточно".

Перед приемкой полезно зафиксировать, что является критичным именно для вас (IOPS, пропускная способность, задержка, CPU), и какие настройки обязательны. Иначе симптомы будут лечить апгрейдами наугад.

Быстрый чек-лист перед покупкой и перед вводом в эксплуатацию

Сеть без скрытых ограничений

Спроектируем сеть под ETL, репликацию, бэкапы и доступ приложений с контролем задержки.

Уточнить решение

Этот короткий список помогает быстро отсеять конфигурации, которые красиво выглядят в спецификации, но потом упираются в NUMA, память или диски. Достаточно пройтись по нему дважды: перед заказом и перед приемкой.

Перед покупкой: что зафиксировать в заказе

CPU: точная модель, 1 или 2 сокета, целевая частота под вашу нагрузку, выбранный профиль производительности (без неожиданных энергосберегающих режимов).
NUMA: как будет работать БД или гипервизор (один инстанс на сокет, несколько инстансов, виртуалки) и какое правило affinity вы реально сможете поддерживать.
RAM: общий объем и фактическая частота DDR5 в выбранной раскладке. Проверьте симметрию по каналам и отсутствие перекоса.
Storage: роли томов (данные, журналы, temp, бэкапы), что будет RAID, а что HBA/JBOD, есть ли горячая замена. Для NVMe заранее требуйте мониторинг износа.
Network: требуемая скорость портов и среда (оптика/медь), раздельные сети (клиенты, репликация, бэкапы, управление) и целевые метрики задержки.

Перед вводом в эксплуатацию не меняйте архитектуру "по месту". Типичный сценарий: сервер под DWH берет большие загрузки ночью, и если память работает на более низкой частоте из-за неверной раскладки, окно внезапно перестает укладываться.

Перед запуском: что подтвердить на площадке

Попросите у ответственного инженера один лист с фактами: версии BIOS/iDRAC и прошивок контроллеров, включенные профили CPU, подтвержденный NUMA-режим, фактическая частота и объем RAM, режим RAID/HBA и состояние NVMe (SMART, процент износа).

После этого прогоните короткий приемочный тест (даже 30-60 минут): базовая проверка сети (пропускная способность и стабильность задержки), дисков (IOPS/latency на каждом типе томов) и CPU/RAM (нагрузка без троттлинга). Результаты и конфиг сохраните в документации, чтобы через полгода было с чем сравнить.

Пример сценария: один сервер под DWH и регулярные загрузки

Представим один Dell PowerEdge R760 под DWH: ночью идет массовая загрузка и преобразования, днем пользователи смотрят отчеты, а раз в неделю выполняется пересчет витрин. В таком режиме важны две вещи: предсказуемая скорость записи ночью и стабильная задержка чтения днем.

Чтобы потоки не мешали друг другу, заранее разнесите роли хранения и трафика. Самый частый провал - когда журналы и временные файлы оказываются на том же массиве, что и основные данные.

Практичная схема разнесения, которую легко обсуждать с поставщиком:

Данные DWH: отдельный пул NVMe (приоритет - емкость и чтение).
Журналы (redo/transaction log): отдельные NVMe (приоритет - стабильная запись и низкая задержка).
Temp/scratch (сортировки, join, staging): отдельный пул NVMe (приоритет - высокая IOPS на смешанных операциях).
Бэкапы: отдельное хранилище вне сервера или отдельные диски, чтобы не забирать NVMe у рабочей нагрузки.
Репликация/выгрузки: отдельный сетевой интерфейс или VLAN, чтобы ночная загрузка не мешала отчетам.

Как выбрать приоритет между "быстрее" и "больше": если окна ночной загрузки сжаты и есть тяжелые преобразования, обычно выигрывают более быстрые NVMe и достаточная частота памяти при нормальной раскладке модулей по каналам. Если же главный риск - рост данных, разумнее заложить емкость и понятный план расширения.

Мини-план приемки под этот сценарий (3-4 проверки, которые дают ответ "готово/не готово"):

Тест последовательной записи для ночных загрузок на пул данных и отдельно на пул журналов.
Тест смешанного чтения/записи на temp/scratch (имитация сортировок и временных таблиц).
Параллельный запуск: отчетное чтение плюс фоновая загрузка, чтобы увидеть просадки задержки.
Сетевой прогон: фактическая пропускная способность и стабильность задержки на вашей схеме VLAN/MTU.

Следующие шаги: как оформить конфигурацию и приемку без лишних рисков

Чтобы покупка Dell PowerEdge R760 под БД или DWH не превратилась в спор "кажется, работает", зафиксируйте вводные на одной странице: тип СУБД, текущий размер базы и темпы роста, окна загрузки и обслуживания, требования по RPO/RTO. Это сразу отсекает неподходящие компромиссы (например, экономию на памяти или сети).

Дальше оформите конфигурацию и приемку так, чтобы их можно было повторить и проверить. Удобно, когда все сведено в два документа:

Таблица конфигурации: CPU/NUMA-план, объем и частоты DDR5, схема дисков (RAID или HBA), роли NVMe (данные, журнал, temp), сеть (10/25/100GbE) и назначение портов.
Приемочный протокол: список тестов и метрик с порогами (IOPS/MB/s, p95/p99 задержки, CPU%, пропуски в сети, время типового запроса, время загрузки партии данных), плюс условия "зачет/незачет".

Пример порога, который понятен всем: "загрузка ночного окна должна укладываться в 2 часа, а p95 задержки записи на журнальный том не превышает X мс при указанной конкурентности". Цифры X и параметры теста берутся из вашего профиля нагрузки, а не из рекламных обещаний.

Отдельно решите вопрос поддержки, иначе через полгода сервер начнет "плыть" из-за разнобоя прошивок и незаметных деградаций дисков. Заранее определите, кто и как делает обновления BIOS/iDRAC/контроллеров и по какому графику, как устроен мониторинг (емкость, ошибки дисков, задержки, температура) и уведомления, какой регламент замены дисков и контроля восстановления массива/пула, как организована реакция 24/7 и эскалация при простое.

Если нужен интегратор, обсуждайте не только поставку, но и сборку, прогон приемочного теста и дальнейшее сопровождение. Для организаций в Казахстане это часто удобно закрыть через GSE.kz: как у производителя и системного интегратора у них можно получить и поставку, и поддержку по регламенту, чтобы конфигурация не расползалась со временем.

FAQ

Зачем вообще нужен чек-лист для сервера под БД и DWH, если характеристики и так мощные?

Чек-лист нужен, чтобы получить не просто «быструю» конфигурацию в среднем, а стабильную и повторяемую по задержкам и пропускной способности. Он помогает заранее договориться о метриках приемки и поймать вещи, которые в спецификации выглядят хорошо, но под реальной нагрузкой дают провалы и «пилообразную» скорость.

С чего начать подбор конфигурации под БД/DWH, чтобы не спорить «на глаз»?

Сначала зафиксируйте профиль: OLTP, DWH или смешанный режим, долю чтения/записи и параллельность. Затем выберите 3–5 типовых операций и договоритесь о метриках: для OLTP это TPS и p95/p99 задержки, для DWH — время отчетов и скорость сканов, для загрузок — время батча и поведение при параллельных джобах.

Что важнее для БД: больше ядер или более высокая частота CPU?

Для OLTP чаще важнее частота одного ядра и ровная задержка, чем максимальное число ядер. Для DWH обычно полезнее больше ядер и потоков, но только если память и диски не становятся узким местом; иначе ядра будут простаивать, а ускорения не будет.

Почему NUMA может «ломать» производительность и как понять, что это ваш случай?

NUMA критичен в двухсокетных серверах: потоку быстрее работать с «локальной» памятью своего CPU, чем с памятью второго сокета. Если размещение памяти и потоков перекошено, появляются плавающие задержки и слабая масштабируемость при росте параллельности, поэтому важно проверить симметрию памяти и поведение под нагрузкой.

Как правильно выбрать и проверить DDR5-память для БД и DWH?

Смотрите не только на общий объем, но и на фактическую частоту в выбранной раскладке, потому что при плотной установке модулей частота может снизиться. Для баз данных часто важны ровные задержки и пропускная способность памяти, поэтому лучше заранее проверить симметрию по каналам и не полагаться на цифры «в спецификации модулей».

Какую схему дисков лучше делать для БД: что обязательно разделять?

Разнесите роли: данные, журналы, temp/scratch и бэкапы не должны конкурировать в одном пуле, иначе пики одной задачи будут бить по другой. В первую очередь контролируйте задержку и ее стабильность, потому что именно она часто становится причиной «внезапных» зависаний и срывов окна загрузки.

Когда выбирать RAID, а когда HBA/JBOD для NVMe в сервере под БД?

HBA passthrough обычно выбирают, когда отказоустойчивость и управление массивами планируются на уровне ОС, файловой системы или самой СУБД, и нужны «прямые» диски. Аппаратный RAID удобен для простых схем, например зеркала под ОС, или когда команда привыкла диагностировать и обслуживать массивы на уровне контроллера; главное — заранее решить, где именно вы будете восстанавливать и мониторить отказ.

Какие ошибки чаще всего делают с сетью в проектах под БД и DWH?

Оцените, сколько трафика идет одновременно: клиентские запросы, репликация, бэкапы и ETL легко мешают друг другу на одном порту. Практичный подход — разделять потоки по портам или VLAN и на приемке измерять не только пропускную способность, но и стабильность задержки под нагрузкой, иначе «линк поднялся» не означает стабильную работу БД.

Что обязательно проверить в BIOS/прошивках перед установкой СУБД?

Согласуйте версии BIOS, iDRAC, прошивок NVMe и NIC, а также энергопрофиль, чтобы частоты и задержки не «плавали» от скрытых настроек. На приемке зафиксируйте эти версии и ключевые параметры, чтобы через полгода можно было сравнить состояние и быстро понять, что изменилось.

Как выглядит нормальная приемка сервера под БД/DWH и что делать с поддержкой дальше?

Минимум — короткий план тестов на диски, сеть и CPU/RAM плюс мини-нагрузка, похожая на ваш профиль, с измерением p95/p99 задержек. Если вы привлекаете интегратора, заранее оформите приемочный протокол и ответственность за обновления и поддержку; в Казахстане это часто закрывают через GSE.kz как производителя и системного интегратора, чтобы конфигурация не «расползалась» в эксплуатации.