15 янв. 2025 г.·8 мин

Когда переход на 10/25/100GbE оправдан в серверной

Понимаем, когда переход на 10/25/100GbE нужен: признаки узких мест, расчет трафика для виртуализации и бэкапов, выбор оптики и коммутаторов.

Что значит, что сеть стала узким местом

Сеть становится узким местом, когда серверам и хранилищу уже хватает CPU, RAM и дисков, но приложения все равно тормозят, потому что данные не успевают проходить между узлами. Чаще это видно не как постоянные 100% на порту, а как короткие пики трафика, очереди на коммутаторе и рост задержки.

Обычно в сеть упираются задачи, где много обмена между серверами: миграции и хранилище для виртуализации, базы данных с активными запросами, VDI (особенно в часы входа пользователей), а также трафик резервного копирования и репликации. На 1GbE такие нагрузки могут выглядеть приемлемо до определенного масштаба, а потом любой рост (плюс 10-20 ВМ, еще один узел, больше пользователей) резко ухудшает ситуацию.

Важно смотреть не только на среднюю загрузку канала. Средняя может быть 30-40%, но при микровсплесках (microbursts) пакеты встают в очередь, появляются потери и ретрансляции. Приложения ощущают это как задержки и подвисания.

Чаще всего узкие места появляются в нескольких точках:

ToR-коммутатор в стойке, когда много серверов делят один или два аплинка
uplink в агрегацию или ядро, особенно при одновременных бэкапах
сеть хранения (iSCSI/NFS/CEPH) или ее отсутствие, когда все смешано в одном канале
межузловой трафик кластера виртуализации (vMotion/Live Migration)

Если вы обсуждаете переход на 10/25/100GbE, начните с простого вопроса: где именно растет задержка и где появляются очереди. Это дает точку для расчета и помогает не купить просто более быстрые порты, оставив прежнее бутылочное горлышко, например в аплинке или storage-сети.

Признаки, что пора повышать скорость линков

Самый частый сигнал - сеть вроде работает, но все важное начинает занимать заметно больше времени: копирование файлов, открытие тяжелых документов, ночные бэкапы, вход в VDI. Если при этом CPU и диски на серверах не забиты, логично проверять сеть.

Начните с графиков на коммутаторах и на серверах. Опасны не только 90-100% утилизации, но и очереди на портах, дропы и ошибки. Часто средняя загрузка за сутки выглядит скромно, но в пиках на 10-15 минут линк упирается в потолок и на эти минуты подвешивает сервисы. Поэтому привязывайте пики к событиям: когда идут резервные копии, репликации, обновления, миграции виртуальных машин.

В виртуализации узкое место часто видно по косвенным симптомам. Миграции VM (vMotion/Live Migration) тянутся дольше обычного, а один шумный сосед в группе хостов начинает заметно ухудшать работу других VM. Обычно это означает, что east-west трафик между хостами и хранилищем упирается в скорость линков или в аплинк стойки.

Со стороны хранилища типичный признак - растет latency, хотя диски и контроллеры не в экстремальной загрузке. Например, днем пользователи жалуются на лаги VDI, а мониторинг показывает всплески задержек на iSCSI/NFS именно в моменты параллельных задач.

Метрики, которые должны насторожить:

регулярные пики утилизации порта близко к 100% в рабочие окна
рост очереди на порту и дропы (даже без явных аварий)
CRC/ошибки на интерфейсе (часто маскируют проблему кабеля или оптики)
растянутые окна бэкапа и репликации при прежних объемах
замедление миграций VM и нестабильность VDI в часы пик

Если таких сигналов несколько, переход на 10/25/100GbE обычно оправдан не ради скорости как таковой, а чтобы убрать пики, из-за которых пользователи и сервисы ощущают сеть как тормоз.

Какие данные собрать перед расчетом

Перед тем как считать пропускную способность, соберите факты о текущей нагрузке. Иначе переход на 10/25/100GbE легко превращается в закупку на глаз, где потом внезапно упирается не линк, а бэкап-окно, дисковая подсистема или несовместимая оптика.

Начните с базовой логики: разделите трафик по типам и для каждого типа поймите, сколько его, когда он идет и насколько он чувствителен к задержкам. Даже в одной стойке обычно смешиваются прод-трафик пользователей, доступ к хранилищу, резервное копирование, репликация и управление.

Минимальный набор исходных данных

Соберите цифры, которые можно проверить и повторить через месяц:

Инвентаризация: сколько физических хостов, сколько VM, где стоят хранилища, сколько сетевых портов и какой скорости на узлах.
Пиковая и средняя нагрузка: входящий и исходящий трафик по времени суток, отдельно для prod, storage, backup, репликации и управления.
Резервное копирование: объем данных за ночь, требуемая скорость, длительность окна обслуживания, сколько потоков параллельно и куда пишется бэкап.
Репликация и миграции: как часто и сколько данных гоняется (например, vMotion/Live Migration), есть ли всплески в рабочее время.
Ограничения: бюджет, сколько свободных юнитов в стойке, доступность модулей SFP28/QSFP28, тип кабеля (медь/оптика) и реальные расстояния между узлами и коммутаторами.

Дальше добавьте прогноз роста на 12-24 месяца. Это не гадание, а план: сколько новых VM ожидается, как растут базы и файлы, появятся ли новые сервисы (например, VDI, видеонаблюдение, аналитика). Часто именно рост делает текущие 10GbE вчерашним днем.

Отдельно зафиксируйте, что критично по времени. Например, RPO 15 минут и RTO 2 часа диктуют требования к репликации и восстановлению, а не только к скорости портов. Если ночью нужно снять 20 ТБ за 6 часов, важна не дневная средняя загрузка, а стабильная скорость ночью с учетом накладных расходов и параллельных задач.

Пошаговый расчет пропускной способности под виртуализацию

Расчет стоит начинать не со скорости портов, а с понимания, какой трафик реально ходит в кластере. Для виртуализации важно учитывать не только пользователей, но и обмен между самими VM.

5 шагов, которые дают понятную цифру

Оцените east-west трафик: кто с кем общается внутри кластера (VM с базой данных, VM с хранилищем, сервисы мониторинга). Смотрите пики, а не среднее за день.
Оцените north-south трафик: выход к пользователям, интернету, филиалам и внешним системам. Часто он меньше внутреннего, но именно он влияет на ощущение, что тормозит сайт или 1С.
Добавьте трафик миграций и обслуживания: Live Migration/vMotion, ребилды, обновления хостов. Важно, как часто это происходит и сколько VM обычно переезжает одновременно.
Заложите накладные расходы: заголовки протоколов, инкапсуляция (например, VXLAN), шифрование, зеркалирование, служебные потоки. Практично добавлять запас 15-30% поверх измеренных пиков.
Выберите допустимый oversubscription простыми словами: сколько суммарной скорости серверов вы готовы делить на один аплинк. Чем ближе к 1:1, тем меньше риск очередей и задержек, но тем дороже.

После этого проверьте, что аплинки и межкоммутаторные связи не станут новым узким местом. Типичная ошибка: поднять порты на серверах, но оставить один 10GbE аплинк на стойку.

Пример: если в ToR подключено 8 хостов по 10GbE, суммарно это 80GbE. При oversubscription 4:1 аплинк нужен около 20GbE (на практике это подталкивает к 25GbE), а при 2:1 - уже 40-50GbE. Так переход на 10/25/100GbE становится следствием цифр, а не моды.

Расчет сети для резервного копирования и репликации

Сеть под бэкап часто ломается не из-за одного большого задания, а из-за суммы факторов: полный бэкап на выходных, десятки инкрементов в будни, дедупликация, сжатие и параллельные потоки от разных серверов. Поэтому считать нужно не скорость порта, а реальную нагрузку в ваше бэкап-окно.

Базовая оценка простая: объем данных, который нужно передать за окно, делим на длительность окна. Формула в лоб выглядит так: ГБ за окно / секунды окна = ГБ/с. Чтобы перевести в Гбит/с, умножьте ГБ/с на 8.

Например, за ночь надо отправить 4 000 ГБ инкрементов за 6 часов. 6 часов = 21 600 секунд. 4 000 / 21 600 = 0,185 ГБ/с, то есть около 1,48 Гбит/с чистой скорости. Но это без накладных расходов, без пиков и без одновременных задач.

В реальности запас нужен почти всегда: задания стартуют примерно в одно время, на один узел включают несколько потоков, бывают плохие дни (патчи, массовые изменения данных, реорганизации баз). Дедупликация и компрессия тоже влияют по-разному: иногда они снижают трафик, а иногда упираются в CPU и дают неровную скорость.

С репликацией между площадками логика та же, но важнее ограничение канала и стабильность. Если межсайтовый канал узкий, репликация будет догонять дольше, и отставание (RPO) вырастет. В таких случаях полезно заранее задать лимиты на репликацию и проверить, что она не вытесняет бэкап или прод-трафик.

Чтобы не получить ситуацию, когда переход на 10/25/100GbE ускорил бэкап, но начал мешать пользователям, предусмотрите простые меры: разнесите бэкап и репликацию по отдельным VLAN или интерфейсам, ограничьте скорость на задания, не запускайте все джобы в одну минуту. Это особенно важно на плотных узлах виртуализации и хранилища.

Как выбрать между 10, 25 и 100GbE

Расчет сети под вашу стойку

Поможем прикинуть 10/25/100GbE по вашим пикам, бэкап-окнам и oversubscription.

Запросить расчет

Выбор скорости проще, если разделить сеть на два уровня: что нужно одному узлу (серверу) и что нужно стойке целиком (в аплинках). Так обычно и принимают решение без лишних трат.

10GbE часто становится первым взрослым шагом для ToR-коммутатора, хостов виртуализации и отдельного бэкап-сегмента. Его хватает, если у каждого сервера умеренный I/O, а пики редкие и короткие.

25GbE стоит рассматривать не как немного быстрее 10, а как более удобную ступень роста: на одном порту больше запаса, и часто это выгоднее по цене за 1 Гбит/с, особенно когда важна плотность портов и вы не хотите возвращаться к апгрейду через год.

100GbE обычно выбирают не на каждый сервер, а для аплинков и межстоечных связей: агрегация, spine/leaf, подключения тяжелых кластеров. В таких местах суммарный поток от стойки легко упирается в 2x10 или 4x10.

Ориентиры, которые помогают не ошибиться:

Оставайтесь на 10GbE, если узел редко упирается в сеть и стойка не забивает аплинки даже в пики.
Берите 25GbE на хосты, если на них много говорящих ВМ, активные миграции, или бэкап и рабочий трафик пересекаются по времени.
Планируйте 100GbE на аплинки, если суммарно с 10-20 серверов стойки трафик часто упирается в 2-4 аплинка, даже если каждый сервер по отдельности не перегружен.
Проверяйте не только скорость порта, но и суммарную пропускную способность вверх: часто проблема не в серверах, а в узком аплинке.

Практичный сценарий постепенного перехода: оставить часть серверов на 10GbE, новые узлы подключать на 25GbE, а аплинки ToR сделать 100GbE. Так вы заранее усиливаете верх стойки, не меняя все сетевые карты и оптику одновременно.

Оптика и кабели: что проверить до закупки

При переходе на 10/25/100GbE чаще всего стреляют не сами скорости, а детали вокруг оптики: форм-фактор, тип кабеля, расстояние, чистота коннекторов и бюджет мощности. Ошибка на этом этапе легко превращается в нестабильные линки и лишние закупки.

Сначала проверьте совместимость форм-факторов и скоростей. SFP+ обычно про 10GbE, SFP28 про 25GbE, QSFP28 про 100GbE. Важно не только то, что модуль физически подходит, но и поддерживает ли конкретная модель коммутатора нужный режим, кодировку и, если нужно, разветвление 100G в несколько 25G (breakout).

Дальше решите вопрос дистанции и типа волокна. Для коротких линий внутри стойки и между соседними стойками часто хватает многомода (OM3/OM4). Для длинных трасс по серверной, между этажами или корпусами обычно выбирают одномод (OS2). Это влияет на цену модулей, тип коннекторов и допустимые потери.

Перед заказом полезно свести физику в одну простую таблицу (порт - модуль - тип среды - длина) и проверить три вещи: укладываются ли потери в допуск Tx/Rx, совместимы ли модули с вашим вендором и прошивкой, и понятно ли, где можно использовать DAC/AOC, а где нужна оптика.

DAC часто дешевле и проще на коротких расстояниях (в стойке). AOC удобен, когда нужна гибкость и меньше проблем с радиусом изгиба. Экономить нельзя на качестве патч-кордов и чистоте: плохой шнур и пыль в коннекторе дают ошибки и просадки, которые трудно диагностировать.

Перед вводом в эксплуатацию сделайте короткий план тестов: проверьте уровни сигнала и температуру модулей (DOM/DDM), прогоните нагрузку 1-2 часа и посмотрите CRC/FEC/дропы, понаблюдайте за флапами линка на реальной нагрузке (виртуалки, бэкапы). Если есть подозрения, переподключите патч-корды и убедитесь, что проблема не переезжает вместе с кабелем.

Коммутаторы: на что смотреть, кроме скорости портов

Разнести бэкап и прод трафик

Подскажем, как отделить бэкап и репликацию, чтобы не мешать прод-трафику.

Связаться с инженером

Скорость порта на коробке не гарантирует, что коммутатор переварит реальный трафик. Узкое место часто появляется не на 10/25/100GbE линке, а внутри устройства: не хватает буферов при всплесках, падает производительность на мелких пакетах (PPS), а аплинки перегружаются из-за oversubscription.

Если у вас виртуализация, почти всегда есть микс трафика: east-west между ВМ, хранилище, управление, резервное копирование. В такой смеси важны не только гигабиты, но и то, как коммутатор держит очереди и приоритеты, и как быстро показывает проблему в мониторинге.

Что проверить по начинке и функциям

Из того, что действительно пригодится в серверной:

Буферы и PPS: чтобы переживать короткие пики (например, старт ночных бэкапов или массовый ребут ВМ).
VLAN и LACP: для разделения трафика и агрегирования линков к хостам.
Stack или MLAG: чтобы два ToR выглядели как один и хосты не зависели от одного коммутатора.
QoS и базовая телеметрия: чтобы не топить все бэкапом и быстрее находить перегрузки.
Oversubscription: оцените, сколько 25G портов сходится в один 100G аплинк и какой запас вам нужен.

Железо, которое забывают посчитать

Заложите питание и охлаждение: два БП, горячая замена, запас по мощности под оптику, приемлемый уровень шума (особенно в небольших серверных). Отдельно проверьте план портов: сколько 10/25G пойдет на хосты сейчас и через год, и сколько 100G нужно на аплинки к ядру или в spine-leaf.

На практике при переходе на 10/25/100GbE лучше начинать не с максимума скорости, а с понятной ToR-архитектуры с резервированием и прогнозом роста. Если вы делаете это вместе с интегратором, заранее зафиксируйте требования по oversubscription, отказоустойчивости и мониторингу, чтобы закупка не превратилась в набор несовместимых быстрых портов.

Типовые ошибки при переходе на более быстрый Ethernet

Самая частая ошибка - смотреть только на среднюю загрузку порта. Виртуализация и хранилища живут пиками: ночные бэкапы, репликация, переселение виртуальных машин, обновления. В итоге по графику все красиво, а пользователи жалуются на тормоза ровно в те часы, когда сеть встает.

Вторая ловушка - ускорить серверы, но оставить бутылочное горлышко выше по цепочке. Например, вы поставили на хосты 25GbE, а аплинк с коммутатора стойки в ядро остался 10GbE. В такой схеме новые карты почти не дают эффекта: весь трафик все равно упирается в старый аплинк.

С оптикой и кабелями тоже легко промахнуться. Часто покупают модули на глаз, не сверив дистанции, тип портов и среду. Результат - несовместимость, ошибки линка, или внезапно оказывается, что нужен другой тип трансиверов (SFP28/QSFP28) и другая разводка.

Проверьте себя по короткому списку:

Планируете пиковые нагрузки (бэкапы, репликация, VM-migration), а не только среднее за сутки.
Сверяете скорость на всем пути: сервер - ToR - аплинк - агрегация - ядро - хранилище.
Подбираете оптику и кабели под реальные расстояния и типы портов заранее.
Закладываете запас по портам и ресурсам коммутатора, чтобы не доплачивать за срочные доработки.
Настраиваете мониторинг до апгрейда, чтобы было чем подтвердить проблему и проверить результат.

Пример из практики: в одной стойке крутятся VM, ночью идут бэкапы на отдельное хранилище. Днем трафик умеренный, но ночью короткий пик забивает аплинк, растут очереди на портах, и утренние задачи стартуют медленно. Если в таком сценарии поменять только сетевые карты на серверах, а аплинк и порты хранилища не трогать, проблема останется, просто станет менее очевидной.

Быстрый чеклист перед апгрейдом

Перед тем как планировать переход на 10/25/100GbE, полезно за 1-2 рабочих дня собрать признаки, что сеть реально упирается в скорость, а не в настройку или диски.

Сначала проверьте факты в мониторинге и логах. Один медленный сервис часто выглядит как проблема сети, но на деле это перегруженный хост, хранилище или неудачный график бэкапов.

Чеклист, который обычно дает ясный ответ:

Есть ли порты, которые держатся выше 70-80% загрузки в пиковые часы (регулярно), и при этом растет задержка.
Есть ли на портах коммутаторов дропы, ошибки, переполнения очередей или рост discards, особенно во время бэкапов или миграций.
Укладывается ли резервное копирование в окно без заметного влияния на prod: нет ли жалоб на тормозит утром и конкуренции бэкапа с основным трафиком.
Стали ли миграции VM, ребалансировка хранилища, обслуживание кластера и восстановление после сбоев ощутимо дольше, чем раньше.
Есть ли понятная карта скоростей: где достаточно 10GbE, где выгоднее 25GbE, где нужен 100GbE, и какие аплинки и агрегация портов для этого потребуются.

Отдельно проверьте физику до закупки. Убедитесь, что выбранные модули и кабели совместимы с вашими серверами и коммутаторами, и что реальная дальность подходит (медь, DAC, оптика, тип волокна). Типовая ошибка - купить SFP28/QSFP28 как в спецификации, а потом упереться в несовместимость или неправильный тип кабеля между стойками.

Пример сценария: виртуализация + ночные бэкапы в одной стойке

Оборудование и интеграция от GSE

Соберем предложение на отечественные серверы и интеграцию под вашу архитектуру.

Запросить КП

Представим стойку с 6 хостами виртуализации. На каждом по 20-30 ВМ, общее хранилище подключено через ToR-коммутатор, а ночью запускаются полные бэкапы на отдельный сервер или репозиторий в той же стойке.

Первые проблемы обычно появляются не днем, а ночью. На 1/10GbE все держится, пока не совпадут три вещи: бэкап, фоновая репликация и обычные задачи ВМ (обновления, отчеты, антивирусные проверки). В этот момент аплинк ToR забивается, растут очереди на портах, и задержка для ВМ заметно увеличивается. Днем это превращается в странные жалобы: "в 9:30 все тормозило", хотя CPU и диски вроде не в красной зоне.

Типичная картина до апгрейда:

Бэкап не укладывается в окно и затягивается до рабочего времени.
На портах ToR высокий процент утилизации и микропики до 100%.
Растет latency для хранения или vMotion, появляются краткие подвисания ВМ.
При аварийном восстановлении скорость ниже ожидаемой.

Простой план улучшения: поднять скорость на хостах до 25GbE, а аплинки стойки сделать 2x100GbE (или больше, если есть несколько стоек). Отдельно выделить сегмент под бэкап: отдельные VLAN/VRF, отдельные порты или даже отдельный коммутатор, чтобы ночной трафик меньше влиял на живую виртуализацию.

Проверяйте результат не на глаз, а по метрикам до и после: утилизация портов, drop/CRC, очереди, p95 задержки до хранилища, фактическая скорость бэкапа и время закрытия окна. Тестируйте в пиковое время, когда бэкап реально идет, а не в тишине.

Чтобы заложить рост, выбирайте ToR с запасом по портам 25GbE и возможностью добавить еще 100GbE аплинки без полной замены. Тогда расширение (плюс 2 хоста или новый бэкап-репозиторий) будет апгрейдом внутри стойки, а не перестройкой всей схемы.

Следующие шаги: план внедрения и что делать дальше

После того как вы нашли узкие места и прикинули нужную полосу, не начинайте с закупки. Сначала соберите точную карту: где стоят серверы и СХД, какие скорости у линков, где аплинки в ядро, где отдельные сети (управление, storage, VM, резервное копирование), где межстоечные соединения. Такая схема быстро показывает, что иногда достаточно усилить один участок (например, uplink стойки), а не менять все подряд.

Дальше помогает план, который снижает риск и дает цифры на реальной нагрузке:

Соберите схему портов и скоростей по стойкам: хосты, storage, uplink, interconnect, текущие типы SFP/QSFP и длины линий.
Сделайте пилот на одной стойке (или одном кластере): включите новую скорость, прогоните обычные ночные бэкапы и типовые задачи виртуализации, снимите метрики (загрузка портов, задержки, потери, время окна бэкапа).
Подготовьте спецификацию: коммутаторы, модули и кабели, плюс 1-2 запасные позиции на критичные элементы (трансиверы, DAC/оптика).
Продумайте поддержку: кто отвечает за инциденты, как быстро возможна замена, где лежат запасные части, какой порядок отката, и что требуется для режима 24/7.
Запланируйте внедрение волнами: стойка за стойкой, с контрольными точками и понятными критериями успеха (например, окно бэкапа сократилось до X часов, средняя загрузка uplink не выше Y%).

Если не хватает ресурсов на проектирование и подбор совместимых серверов, сетевой части и оптики под вашу нагрузку, это удобно обсудить с GSE.kz (gse.kz). У компании есть системная интеграция, инфраструктурные решения для дата-центров и круглосуточная техническая поддержка, что особенно полезно, когда апгрейд затрагивает критичные сервисы.

FAQ

Что значит, что сеть стала «узким местом» в серверной?

Сеть — узкое место, когда у серверов и СХД есть запас по CPU/RAM/дискам, но операции «застревают» на передаче данных между узлами. Практический признак: сервисы периодически «подвисают», а на портах в это время появляются очереди, дропы или всплески задержки, даже если средняя утилизация невысокая.

Почему средняя загрузка 30–40% не означает, что сеть в порядке?

Потому что проблемы часто создают короткие всплески (microbursts): за секунды порт может упереться в лимит, пакеты встают в очередь, появляются дропы и ретрансляции. В итоге пользователи видят задержки, хотя график «за день» показывает, например, 30–40% нагрузки.

Какие метрики в первую очередь проверить, чтобы подтвердить сетевую проблему?

Начните с этих метрик на коммутаторах и хостах: - пики утилизации порта (по 1–5 минут и короче) - очереди/буферы, discards, drops - CRC и другие ошибки интерфейса - рост p95/p99 задержки до хранилища (iSCSI/NFS/CEPH) и внутри кластера Если ошибки и дропы растут именно в моменты бэкапов/миграций/пиков VDI — это сильный сигнал.

В каких местах сети чаще всего возникает бутылочное горлышко?

Чаще всего — там, где много «суммируется»: - ToR-коммутатор: много серверов делят 1–2 аплинка - аплинк в агрегацию/ядро, особенно во время бэкапов - сеть хранения, если storage-трафик смешан с продом - межузловой трафик виртуализации (vMotion/Live Migration) Проверка простая: пройдите путь «сервер → ToR → аплинк → агрегация/ядро → СХД» и найдите, где растут очереди и дропы.

Какие данные собрать перед расчетом 10/25/100GbE?

Соберите минимум, который можно повторить и сравнить «до/после»: - сколько хостов, VM, СХД, портов и их скорости - пиковый и средний трафик по времени суток (prod/storage/backup/replication/management) - параметры бэкапа: объём за окно, длительность окна, параллельность - миграции/репликации: частота, объёмы, совпадение с рабочими часами - ограничения по физике: типы портов (SFP+/SFP28/QSFP28), кабель/оптика, расстояния Без этих данных легко ускорить «не тот» участок и не получить эффекта.

Как быстро прикинуть нужную пропускную способность под виртуализацию?

Рабочая схема из 5 шагов: 1. Оцените **east-west**: пики обмена внутри кластера (VM↔VM, VM↔СХД). 2. Оцените **north-south**: трафик к пользователям/интернету/филиалам. 3. Добавьте обслуживание: миграции, ребилды, обновления хостов. 4. Заложите 15–30% на накладные расходы (инкапсуляция, служебный трафик, шифрование). 5. Выберите допустимый **oversubscription** (например 4:1 или 2:1) и проверьте аплинки. Главное: апгрейд портов на серверах бессмысленен, если аплинк стойки остается узким.

Как посчитать сеть для резервного копирования и репликации?

Базовая формула: **объём данных за окно / длительность окна**. Дальше обязательно добавьте практику: - запас на пики и одновременный старт задач - влияние дедупликации/сжатия (часто упирается в CPU и дает неровную скорость) - ограничения межсайтового канала для репликации и рост RPO при перегрузе Чтобы бэкап не «топил» прод, разнесите трафик (VLAN/интерфейсы), ограничьте скорость задач и не запускайте всё в одну минуту.

Как выбрать между 10, 25 и 100GbE без переплаты?

Простая логика: - **10GbE**: когда одному узлу хватает и пики редкие; хороший старт для ToR и небольших кластеров. - **25GbE**: когда на хостах много активных VM, частые миграции, пересечение бэкапа и рабочего трафика; дает заметный запас на порт. - **100GbE**: чаще всего для аплинков стойки, межкоммутаторных связей и тяжелых кластеров, где суммарный поток от стойки упирается в верх. Проверяйте не «скорость порта на сервере», а суммарную полосу вверх (аплинки) и выбранный oversubscription.

Что важно проверить по оптике и кабелям перед переходом на 10/25/100GbE?

Перед закупкой проверьте три вещи: - **совместимость портов и режимов** (SFP+ ≈ 10G, SFP28 ≈ 25G, QSFP28 ≈ 100G, нужен ли breakout 100G→4×25G) - **тип среды и дистанции**: DAC/AOC в стойке, MM (OM3/OM4) на короткие трассы, SM (OS2) на длинные - **качество физики**: чистота коннекторов, состояние патч-кордов, соблюдение радиуса изгиба После монтажа прогоните нагрузку и смотрите DOM/DDM, CRC/FEC и дропы — так быстрее поймать проблему кабеля/оптики.

На что смотреть в коммутаторах для 10/25/100GbE, кроме скорости портов?

Кроме скорости портов смотрите, выдержит ли коммутатор реальный профиль трафика: - буферы и производительность на мелких пакетах (PPS) для переживания микровсплесков - LACP, VLAN, QoS — чтобы разделять трафик и не «утопить» прод бэкапом - MLAG/стек — чтобы два ToR работали как единое целое и не было единой точки отказа - телеметрия и удобство мониторинга очередей/дропов И заранее посчитайте питание/охлаждение и запас портов на рост, иначе апгрейд упрется не в сеть, а в «железные мелочи».