Зачем согласовывать требования, а не угадывать

Покупка железа «на глаз» почти всегда заканчивается одним из двух вариантов: вы переплачиваете за лишние ресурсы или получаете красивую конфигурацию, которая все равно тормозит. Проблема в том, что производительность приложения редко упирается только в «мощнее CPU». Чаще виноваты диск, сеть, база данных, настройки, очереди или одна небольшая функция, которая «съедает» ресурс в пиковые минуты.

Подход «возьмем с запасом» тоже не спасает. Избыточная конфигурация может не дать заметного эффекта, если узкое место в I/O или в ограничениях самого ПО. А деньги, которые ушли на лишние ядра или память, могли закрыть реальную боль: быстрые диски, отдельный сервер БД, нормальное резервирование или модернизацию сети.

Отдельный риск - скрытые ограничения лицензий и архитектуры. Некоторые продукты считают лицензии по ядрам, ограничивают количество потоков, не умеют эффективно использовать много CPU, требуют конкретные версии ОС или СУБД. Бывает и проще: приложение работает только в одном экземпляре, и второй сервер не помогает без переделки. Без уточнений на интервью это часто выясняется уже после закупки.

Когда нет данных, решения принимают по привычке: «как в прошлый раз», «как у соседей», «чтобы точно хватило», «поставим побольше RAM - пройдет». Это риск для бюджета, сроков и репутации: бизнес ждет быстрый результат, а ИТ получает сложный проект с непредсказуемым итогом.

Интервью с владельцем приложения и план замеров производительности дают опору. Вы заранее договариваетесь, что считается «нормально», когда бывают пики, какие операции критичны, какие есть ограничения и зависимости. А метрики показывают факты: где реальная потребность и что усиливать в первую очередь. Так согласование требований к железу превращается из гадания в понятное решение, которое можно защитить перед закупкой и потом проверить в эксплуатации.

Кто должен участвовать и за что отвечает

Согласование требований к железу редко получается, если разговаривать только с ИТ или только с бизнесом. Нужны люди, которые отвечают за приложение, за инфраструктуру и за деньги. Иначе вы либо купите «с запасом», либо упретесь в ограничения ПО уже после запуска.

Владелец приложения (часто это руководитель продукта, владелец сервиса или администратор бизнес-системы) лучше всех знает, ради чего система существует и как ею пользуются. Он обычно может назвать пиковые периоды, критичные операции (например, закрытие месяца), допустимые простои и какие «тормоза» уже заметны пользователям.

ИТ-команда переводит ожидания в технические требования и риски. Важно не только «сколько CPU и RAM», но и эксплуатация: резервное копирование, обновления, мониторинг, доступы, сегментация сети, требования по безопасности и соответствию внутренним политикам.

Финансы и закупки держат рамки реальности: бюджет, сроки поставки, правила тендеров, требования к локальному содержанию, гарантии и сервис. Если сроки поставки длиннее, чем дедлайн проекта, это нужно знать до того, как вы утвердите конфигурацию.

Чтобы потом не спорить «кто обещал», назначьте одного ответственного за итоговую спецификацию (single owner). Обычно это ИТ-архитектор или руководитель инфраструктуры, но с обязательным письменным согласованием от владельца приложения.

Роли можно зафиксировать коротко:

Владелец приложения: сценарии использования, критичность, пики нагрузки, функциональные ограничения.
ИТ: архитектура, безопасность, резервирование, эксплуатация, требования к площадке.
Финансы/закупки: бюджет, сроки, условия поставки и поддержки.
Поставщик/интегратор (если привлекаете): совместимость, рекомендации по конфигурации, план тестов.
Ответственный за спецификацию: собирает решения, фиксирует допущения и версию требований.

Главное правило: решения о железе принимаются по измерениям и ограничениям приложения, а не по чьей-то «оценке на глаз».

Что собрать до интервью, чтобы разговор был предметным

Если прийти к владельцу приложения без фактов, разговор быстро превратится в «давайте возьмем помощнее». Чтобы согласование требований к железу было точным, подготовьте небольшой пакет входных данных. Он помогает говорить о реальной нагрузке и ограничениях, а не о предположениях.

Сначала зафиксируйте, что именно будет работать на сервере или ПК. Важно не только название системы, но и состав: модули, плагины, отдельные службы, база данных, а также интеграции (обмен с 1С, почтой, ЭЦП, шина данных, печать, сканирование). Часто «маленькое приложение» тянет за собой тяжелую БД или сервис импорта.

Дальше соберите картину пиков: когда нагрузка максимальная - по дням недели, часам, сезонности, закрытию месяца, приемной кампании или отчетным периодам. Простой пример: в обычные дни 30 пользователей, а в последний день месяца 120 и массовая выгрузка отчетов.

Полезно принести на интервью список текущих жалоб, но в конкретных формулировках. Не «тормозит», а «открытие карточки клиента 20-40 секунд», «выгрузка отчета падает», «печать зависает на 5 минут». Это сразу направляет разговор к возможному узкому месту.

Проверьте, какие данные уже есть: мониторинг (CPU, RAM, диск, сеть), логи приложения и ОС, отчеты по базе, статистика обращений в сервис-деск, типовые инциденты. Даже 1-2 недели таких данных часто точнее любых оценок.

И, наконец, соберите ограничения среды: помещение и стойка, электропитание и ИБП, доступная сеть и порты, требования ИБ (сегментация, шифрование, журналирование), а также правила по отечественному оборудованию. Эти рамки могут определить класс решения (например, рабочая станция vs сервер), и лучше знать их до интервью.

Шаблон интервью (часть 1): нагрузка и ожидания бизнеса

Начните интервью с понятных бизнес-ожиданий. Здесь важны не термины, а конкретные ответы: сколько людей реально работает в системе, какие действия повторяются каждый день и где бизнес чувствителен к задержкам.

Вопросы про пользователей и пики

Сначала уточните масштаб и одновременность. Часто «500 пользователей» звучит страшно, но одновременно активно работают 40-60.

Спросите:

Сколько пользователей всего и сколько реально одновременно в пиковые часы?
В какие дни и часы пик (утро, конец месяца, сдача отчетности)?
Есть ли филиалы, удаленный доступ, сезонность?

Дальше переходите к операциям. Попросите назвать 3-5 типовых действий и 1-2 самых тяжелых сценария. Например: формирование отчета за период, массовая загрузка данных, пакетная обработка ночью, экспорт в Excel, печать больших наборов.

Время отклика, рост и обслуживание

Уточните, что считается «нормально». Разные роли ждут разного: оператору важны секунды, бухгалтер готов подождать отчет, но не каждый раз.

Проверьте:

Целевое время отклика для ключевых экранов и операций (что ок, а что уже «работать невозможно»).
Какой рост ожидается на 12-24 месяца: пользователи, филиалы, новые модули, дополнительные интеграции.
Окна обслуживания: когда допустимы перезагрузки, обновления, регламентные работы и насколько критична доступность.

Мини-пример для уточнения: «Сейчас 120 сотрудников, одновременно 25. В конце месяца 60, и главный отчет должен открываться до 10 секунд. Ночью идет пакетная загрузка, и в это время система может быть медленнее, но не должна падать». Такой ответ уже дает основу для замеров и расчета, без лишнего «запаса».

Шаблон интервью (часть 2): ограничения ПО и архитектура

В этой части вы выясняете не «сколько ресурсов хочется», а что именно ПО позволяет и требует. Часто именно ограничения версии, лицензии или схемы размещения решают, какой сервер можно купить, а какой нельзя.

Начните с точной идентификации стека. Попросите владельца приложения назвать версии и приложить скрин или файл с информацией о сборке. Зафиксируйте: версию приложения, СУБД, ОС, драйверы, JVM/.NET, нужные библиотеки и сторонние компоненты. Уточните, есть ли требования к файловой системе, шифрованию, домену, сертификатам и синхронизации времени.

Дальше - лицензирование. Оно напрямую ограничивает CPU и архитектуру. Спросите:

Как лицензируется ПО: по ядрам, по пользователям, по инстансам, по сокетам?
Есть ли минимальные/максимальные лимиты по ядрам или по памяти на один инстанс?
Разрешены ли виртуализация и перенос VM между хостами по лицензии?
Какие ограничения у редакции (например, лимит RAM или размер БД)?

Затем обсудите надежность: нужен ли кластер, репликация, актив-актив или достаточно актив-пассив. Уточните, какие RPO/RTO приемлемы, и как выглядит бэкап: как часто, куда, сколько хранить, как проверяют восстановление.

Интеграции часто создают пиковую нагрузку, которую «не видно» по среднему. Уточните, с кем идет обмен, как часто, какие объемы, форматы (файлы, API, очереди), есть ли ночные выгрузки и окна обслуживания.

В конце согласуйте схему размещения: один сервер или несколько ролей (приложение и БД раздельно), кластер, виртуализация, терминальный доступ. Пример: приложение работает в RDS для 80 пользователей, но лицензия СУБД ограничивает ядра. Тогда выгоднее разделить роли и считать ресурсы отдельно, а не покупать один «большой» сервер.

Список замеров: что измерять, чтобы увидеть реальную потребность

Замеры и подбор без догадок

Инженеры GSE помогут спланировать замеры и выбрать конфигурацию под ваши пики.

Обсудить

Чтобы согласование требований к железу не превратилось в покупку «с запасом», опирайтесь на замеры в рабочей среде или на максимально похожем стенде. Смотрите не только средние значения, но и пики: именно они чаще всего ломают SLA и создают жалобы.

Базовый набор метрик, который почти всегда дает ясную картину:

CPU: средняя и пиковая загрузка, длина очереди на CPU, время в iowait, признаки «упора в одно ядро».
RAM: занято/доступно, использование swap, ошибки из-за нехватки памяти (OOM, падения сервисов), активность page faults.
Диск: IOPS (чтение/запись), средние задержки и 95-й процентиль, глубина очереди, занятость дисковой подсистемы. Полезно понимать, разделены ли данные, логи и бэкапы.
Сеть: пропускная способность, задержки, потери, перегруз по интерфейсам и узкие места между сегментами (клиенты - приложение - база - хранилище).

Дальше снимите профиль нагрузки по времени, иначе вы оптимизируете «средний день» и промахнетесь: типичный рабочий день по часам, неделя с учетом отчетных дней и отдельные пиковые операции (массовый импорт, пересчет, регламентные задания). Не забудьте фоновые процессы вроде бэкапов, антивируса и ETL.

Небольшой пример: пользователи жалуются на «тормоза» в 10:00. Если CPU в среднем 35%, но одно ядро постоянно 95-100% и одновременно растут задержки диска, причина может быть не в мощности сервера, а в однопоточном участке кода плюс медленные операции записи логов. Такие детали лучше увидеть до закупки, чем лечить деньгами после.

Как понять, где узкое место: простые признаки по метрикам

Узкое место почти всегда видно по сочетанию метрик и симптомов, а не по одной цифре. Поэтому требования к конфигурации стоит опирать на наблюдения: что именно тормозит, когда это происходит и что в этот момент делают CPU, память, диск и сеть.

Быстрые подсказки: где искать проблему

Ориентируйтесь на связку «симптом + метрика».

Если CPU долго высокий, растет очередь на CPU, а диск и сеть спокойные, пользователи обычно жалуются на медленную реакцию во время вычислений (отчеты, расчеты, шифрование).

Если растут задержки диска и очередь I/O, а CPU при этом средний, симптомы часто такие: долгие сохранения, «подвисания» при открытии больших данных, медленные транзакции.

Если по памяти мало свободного, появляется активный swap и растут события о нехватке, система «встает колом» волнами, особенно в пиковые окна.

Если проблема в сети, вы увидите высокую загрузку канала, потери, рост задержек. По ощущениям это выглядит как медленное открытие удаленных экранов, зависания загрузок, разрывы сессий.

Для разделения «база данных vs приложение» полезно смотреть время запросов и ожидания в БД. Если в БД растет время запросов, блокировки и ожидания, а приложение «ждет» ответ, причина чаще в БД (индексы, конкуренция, медленный диск). Если БД отвечает быстро, а задержка между запросами большая, ищите в приложении (пулы соединений, сериализация, очереди задач).

Важно: «80% CPU» не всегда плохо. Если это короткие пики во время пакетной обработки и пользователи не страдают, это нормальная утилизация. Тревожный признак - когда высокая загрузка держится долго, растет очередь и увеличивается время отклика.

Отдельно учитывайте параллельные задачи, которые легко «съедают» запас: резервные копии и проверки целостности, антивирусные сканирования, ETL и выгрузки данных, генерация отчетов по расписанию, обновления и пересборка индексов.

Простой пример: днем система работает ровно, а в 18:00 начинаются жалобы и рост задержек диска. Часто это совпадает с отчетами или бэкапом. В таком случае даже мощный сервер не спасет без разведения задач по времени или выделения дисковой подсистемы под БД.

Как перевести замеры в требования к CPU, RAM, диску и сети

Оборудование с локальным статусом

Поставим ПК и серверы GSE с учетом правил локального содержания.

Запросить КП

Начните с выбора расчетного пика. Не берите «максимум за год» (он часто связан с аварией, бэкапом или разовой миграцией). Практичнее взять типовой «худший день»: например, 95-й перцентиль по нагрузке в рабочие часы плюс отдельный профиль для регламентных задач (закрытие месяца, тяжелые отчеты).

Запас нужен, но контролируемый. Обычно достаточно заложить рост пользователей и данных, плюс изменения в ПО (обновления, новые отчеты, интеграции). Если нет конкретного плана роста, добавьте 20-30% к расчетному пику и зафиксируйте триггеры, когда потребуется расширение (например, рост времени ответа или очередей).

CPU: ядра или частота

Смотрите на загрузку CPU, пики, длину очереди и главное - сколько потоков реально работает параллельно.

Если приложение в основном однопоточное (или есть «узкая» синхронная часть), важнее частота и сильное одно ядро.
Если это веб-сервис, терминальный сервер, параллельные задачи и batch-обработка, важнее количество ядер.
Если CPU часто 80-90% в расчетный пик и растет очередь, добавляйте ядра или переходите на более производительные CPU, а не «чуть-чуть» увеличивайте.

RAM: кэш и всплески

Переводите замеры памяти в требование так: рабочий набор приложения + кэш (БД, файловый кэш, JVM/.NET) + запас под всплески. Хороший признак нехватки RAM - рост page faults и уход в swap при пиках.

По диску и сети ориентируйтесь не только на «сколько места», а на характер операций. Если видите высокий latency, очередь на диске и много мелких случайных чтений/записей, нужен быстрый SSD/NVMe. Если нагрузка последовательная (архивы, бэкапы) и важнее емкость, делайте упор на объем и надежность (RAID, горячая замена), а быстрый слой оставляйте под рабочие данные.

Для сети смотрите p95 по трафику и ошибки/дропы. Если узкое место в сети, поможет не только «больше гигабит», но и разделение потоков (пользовательский трафик, репликация, бэкапы).

Так согласование требований к железу превращается из спора «с запасом или нет» в понятные цифры. На практике это удобно фиксировать в спецификации для закупки сервера с отдельными требованиями к CPU, RAM, дискам и сетевым портам (например, для стойочных систем уровня GSE S200 Series).

Пример сценария: согласование для офисного приложения и отчетности

Компания планирует обновить сервер для офисного приложения и модуля отчетности. Пользователей около 200, но активность неравномерная: в обычные дни нагрузка спокойная, а в конце месяца многие одновременно закрывают заявки и запускают тяжелые отчеты. Без согласования требований к железу обычно берут «побольше CPU и RAM», чтобы точно хватило.

Перед интервью сделали короткие замеры на текущей системе в пиковую неделю. Смотрели не «среднюю температуру», а худшие 30-60 минут, когда жалоб больше всего.

Замеры показали:

CPU редко поднимался выше 55-60%, даже в конце месяца.
RAM была на грани: появлялись пики с активным swap.
Главная проблема была в диске: высокая задержка записи и очередь I/O во время построения отчетов.
В эти же моменты база данных ждала диск, а пользователи видели «подвисания».

На интервью пару вопросов заметно поменяли итоговую конфигурацию. Оказалось, что «тяжелые отчеты» запускают не 10 человек, как думали, а почти весь отдел в один и тот же час. Плюс отчеты хранят детализацию за 3 года, и раз в месяц выполняется пакетная выгрузка в бухгалтерию. Еще выяснилось, что отчетность можно перенести на отдельный сервис или хотя бы запускать по расписанию ночью.

Итоговое решение: не удваивать процессоры «на всякий случай», а вложиться в быстрый дисковый контур (например, NVMe или RAID под нагрузку отчетов), добавить умеренный запас RAM и развести роли (отдельный сервер/ВМ для отчетов или отдельный диск под temp и журналы БД). Если закупка идет через локального производителя, такую конфигурацию удобно собрать на серверной платформе уровня GSE S200, но логика выбора здесь важнее бренда: убираем реальное узкое место и не платим за лишние ядра, которые простаивают.

Пошагово: как провести согласование и зафиксировать решение

Чтобы согласование требований к железу не превратилось в спор «берем побольше на всякий случай», заранее договоритесь о правилах: что считаем успехом и как будем это проверять. Тогда решение будет опираться на цифры, а не на впечатления.

5 шагов, которые работают на практике

Сформулируйте цель и критерии. Зафиксируйте 2-3 понятных показателя: время отклика ключевых операций, допустимое число одновременных пользователей, доступность (включая окна обслуживания) и горизонт роста нагрузки.
Проведите интервью с владельцем приложения и ИТ. Пройдитесь по сценариям: что делают пользователи, какие отчеты «тяжелые», какие интеграции критичны. В конце подтвердите допущения: «пиковая нагрузка по будням 10:00-12:00», «объем данных растет на 20% в год».
Снимите замеры и укажите период наблюдения. Запишите не только числа, но и контекст: дни недели, сезонность, релиз, аварии. Если метрик нет, согласуйте короткий период наблюдения и минимальный набор счетчиков.
Подготовьте черновик спецификации и обсудите компромиссы. Чаще всего выбор идет между быстрыми дисками и большим CPU, добавлением RAM и «расширением» БД, выделением отдельного сервера для отчетности, масштабированием вверх и разделением ролей.
Утвердите документ и план проверки перед вводом. В документе должны быть финальная конфигурация, допущения, ожидаемые метрики, риски и действия на случай, если тест не проходит.

Короткий пример формулировки для протокола: «Операция “Сформировать отчет за месяц” должна выполняться до 30 секунд при 50 одновременных пользователях; тестируем в среде, близкой к боевой, на данных не меньше 80% от текущего объема». Такой протокол удобен и заказчику, и интегратору при поставке и приемке.

Частые ошибки при сборе требований и выборе конфигурации

Спецификация для закупки сервера

Соберем требования, допущения и критерии приемки для закупки без сюрпризов.

Заказать

Самая дорогая ошибка - купить железо «на глаз». Обычно это приводит либо к переплате за ненужный запас, либо к ситуации, когда система тормозит, а менять конфигурацию уже поздно.

Один из частых промахов - смотреть только «среднюю» нагрузку. В реальности пользователей интересуют пики: закрытие месяца, массовая печать, утренний вход сотрудников, пакетная загрузка данных. Если ориентироваться на средние цифры, в пиковые часы приложение будет зависать, а виноватым назначат сервер.

Не менее часто медленный интерфейс путают с нехваткой ресурсов. Пример: пользователь жалуется, что «все долго открывается», а по метрикам CPU и RAM почти пустые. Причина может быть в запросе к базе, блокировках, сетевой задержке, настройках приложения или в диске на стороне хранилища. Поэтому перед расчетом ресурсов сервера важно договориться, что именно считается проблемой: время открытия формы, время построения отчета, время выгрузки, и где это измеряется.

Еще одна ловушка - лицензии и ограничения ПО. Иногда нельзя просто добавить ядра или поднять частоту: лицензия считается по сокетам, ядрам, инстансам, или есть жесткий лимит на число потоков/пользователей. Эти условия нужно выяснить на интервью до выбора CPU.

Опасно смешивать на одном сервере несовместимые нагрузки без правил приоритета. Если на той же машине крутятся отчетность, файловые операции и фоновая обработка, то в момент пика один процесс «съест» диск или CPU, и пострадают все. Минимум - договориться, что важнее в рабочие часы, и ограничить фоновые задачи.

Наконец, часто забывают про «невидимых» потребителей ресурсов: резервное копирование (окна, скорость, нагрузка на диск и сеть), антивирус (сканирование больших папок, исключения), обновления, агенты мониторинга, индексация, фоновые задания приложения. Если это не учесть в замерах, конфигурация будет выглядеть «идеальной» на бумаге, но начнет проседать в реальной эксплуатации.

Быстрый чеклист и следующие шаги перед закупкой

Перед закупкой важно на 1-2 страницы зафиксировать: что именно вы покупаете, под какую нагрузку и как поймете, что все работает. Это защищает и от «перестраховки с запасом», и от ситуации, когда новое железо не решает проблему.

Мини-чеклист перед решением

Проверьте, что у вас есть ответы и цифры по четырем блокам: вопросы, замеры, допущения, приемка.

Вопросы: кто владелец приложения, какие операции критичны, какие окна простоя допустимы, какой рост ожидается на 6-12 месяцев.
Замеры: CPU/RAM/диск/сеть на текущей системе, пиковые часы, время отклика ключевых действий, ошибки и таймауты.
Допущения: плановый рост пользователей/транзакций, объем данных, политика бэкапов, резервирование, требования ИБ.
Критерии приемки: «до/после» по времени отклика, допустимая загрузка ресурсов, SLA поддержки, что считать инцидентом.

После чеклиста договоритесь об артефактах. В идеале должны остаться: таблица замеров (с датами и периодами), протокол интервью (что сказали и что решили) и спецификация (требования к CPU, RAM, диску, сети, отказоустойчивости, а также список совместимого ПО/версий).

Быстрый пилот без сложной лаборатории

Если спорите о конфигурации, сделайте небольшой пилот на «похожем» стенде: разверните копию приложения на тестовом сервере, загрузите обезличенный срез данных и прогоните 2-3 типовых сценария (вход, отчет, массовая операция) в часы, когда команда доступна. Задача не построить идеальный нагрузочный тест, а подтвердить порядок цифр и найти узкое место (диск, CPU, сеть или лимиты ПО).

Дальше назначьте ответственных: владелец приложения подтверждает сценарии и критерии приемки, ИТ отвечает за замеры и спецификацию, закупки проверяют соответствие и сроки, а архитектор или системный инженер делает финальный расчет ресурсов сервера и план внедрения.

Если не хватает компетенций или нужно быстро сравнить варианты, системный интегратор и производитель могут помочь с подбором конфигурации (ПК или серверов), проверкой совместимости и вводом в эксплуатацию. Например, GSE.kz (gse.kz) закрывает и поставку собственного оборудования, и системную интеграцию, и круглосуточную техническую поддержку, что удобно, когда важно не только купить сервер, но и дальше стабильно его сопровождать.