08 июл. 2025 г.·8 мин

Dell PowerEdge R660 для Kubernetes: CPU, RAM, NVMe и сеть

Dell PowerEdge R660 для Kubernetes: как выбрать ядра, RAM и локальные NVMe под плотность подов и какие сетевые настройки чаще всего создают узкие места.

Какая задача у 1U узла под Kubernetes

1U сервер в Kubernetes чаще всего берут как плотный и предсказуемый «кирпичик» кластера: много вычислений на небольшой высоте, быстрое масштабирование по стойке и понятная замена при отказе. Dell PowerEdge R660 обычно рассматривают именно так: один узел должен уверенно тянуть десятки микросервисов и не «сыпаться» на пиках.

На практике 1U узел редко упирается во что-то одно. Плотность подов ограничивают сразу несколько факторов: сколько ядер реально доступно под приложения, сколько памяти съедают лимиты и кэши, какой запас забирают системные компоненты (kubelet, контейнерный рантайм, CNI/CSI, логирование), и как быстро диски и сеть переваривают множество мелких операций.

«Плотность подов» - это не просто число запущенных контейнеров. Это баланс requests/limits, реального потребления и накладных расходов. Даже «легкие» поды могут упереться в память из-за page cache и sidecar-контейнеров, или в CPU из-за TLS, service mesh, метрик и логирования.

Узкие места обычно читаются по поведению:

CPU: растет latency, HPA постоянно масштабирует, но эффекта мало; увеличивается время обработки запросов.
Память: OOMKilled, частые рестарты, узел уходит в MemoryPressure, фактическая плотность падает.
Диск: поды долго стартуют, запись логов тормозит, базовые операции «подвисают» при пиках IOPS.
Сеть: скачет RTT между сервисами, растут ретраи, падает пропускная способность, особенно на east-west трафике.

Перед подбором конфигурации важно собрать минимальный набор входных данных, иначе расчет получается «на глаз». Обычно достаточно понять:

целевое число подов на узел и сколько из них системные;
requests/limits по CPU и RAM для типового и для «тяжелого» пода;
профиль нагрузки (ровный, с пиками, с «бурстом» по CPU);
требования к диску (объем, IOPS, доля записи, нужна ли локальная кэшировка);
сетевой профиль (входящий трафик, east-west, TLS/service mesh, характер пакетов).

Простой пример: команда говорит «всего 60 подов на узел», но половина из них с sidecar, плюс активные метрики и логирование. В итоге реальная плотность ограничится не форм-фактором 1U, а тем, сколько ресурса вы оставили под системный overhead и пики, и где именно узел начинает «задыхаться».

Как Kubernetes реально расходует CPU и память на узле

Планировщик Kubernetes размещает поды на узлах по requests, а не по limits. Requests - это «гарантия»: столько CPU и памяти поду резервируют. Limits - это потолок: выше нельзя. Если requests низкие, а limits высокие, кластер быстро набьется подами, но в пике начнется конкуренция за ресурсы.

С CPU ситуация мягче: когда контейнер выходит за request, он может брать больше, пока на узле есть свободные циклы. Когда свободного CPU нет, включается распределение по долям, а при заданном limit появляется троттлинг (контейнер «тормозит»). Важно помнить, что 1 vCPU в манифесте - это не одно физическое ядро, а доля процессорного времени. На серверах с Hyper-Threading и при смешанной нагрузке реальная производительность «1 vCPU» заметно отличается.

По памяти Kubernetes гораздо строже. Если контейнер превысил memory limit, его просто убьют (OOMKill). Поэтому плотность подов часто упирается в RAM раньше, чем в CPU. Плюс у приложений есть скрытый расход: кэши, JVM/Go, буферы, page cache, а еще sidecar (service mesh, прокси) и агенты.

Отдельно учитывайте постоянный overhead узла. Даже если на нем нет ваших подов, часть ресурсов занята kubelet, container runtime, CNI и DaemonSet-ами (логирование, мониторинг, безопасность), а также сервисами ОС и файловым кэшем.

Пример: вы считаете 40 подов по 250m CPU и 512 MiB. По requests это 10 vCPU и 20 GiB. Но если на узле еще 4-6 GiB уходит на систему и DaemonSet-ы, а у части подов реальный расход памяти ближе к 700-800 MiB, то ограничит именно RAM. Узел начнет ловить OOM задолго до того, как CPU станет «красным».

Что спросить у команды приложения перед расчетом

Перед тем как считать ядра, RAM и NVMe, уточните у команды приложения несколько вещей. Иначе легко подобрать «средний» узел, который красиво выглядит в таблице, но упирается в ограничения на первом же пике.

Сначала зафиксируйте профиль нагрузки. Одни сервисы CPU-bound (вычисления, шифрование, сжатие), другие memory-bound (кэш, большие объекты, JVM), третьи упираются в диск (логирование, временные файлы, очереди), четвертые в сеть (частые вызовы, gRPC/REST, стриминг). Один и тот же под может быть CPU-bound днем и network-heavy во время ночной батч-обработки.

Плотность подов важна, но это не единственная метрика. Спросите, сколько подов действительно нужно на узел и почему. Иногда цель «100 подов на ноду» ломается из-за DaemonSet-ов, лимитов по IP, требований к изоляции или из-за того, что 10 «тяжелых» подов дают больше пользы, чем 80 «легких», но нестабильных.

Зафиксируйте SLO, иначе непонятно, что считать успехом: задержки, пропускную способность, время ответа. Важно и восстановление: сколько минут простоя приемлемо при падении узла и как быстро сервис должен вернуться.

Список вопросов, который обычно дает большую часть нужных данных:

какие requests/limits по CPU и памяти стоят сейчас, были ли OOMKill или throttling;
какие пики по RPS и размеру ответа, что происходит при 2-3x росте нагрузки;
что происходит во время деплоя: сколько реплик одновременно перезапускается, есть ли прогрев кэша;
есть ли локальное состояние (временные файлы, кэш, очереди) и сколько IOPS нужно;
какие зависимости самые «тяжелые» по сети и какие задержки считаются нормой.

Пример: команда говорит «сервис легкий», но при роллинге поднимает две копии параллельно, прогревает кэш 3-5 минут и в это время потребляет в 2 раза больше RAM и активно пишет на диск. Это меняет расчет: нужен запас по памяти и I/O, иначе плотность будет падать именно в моменты релиза.

Подбор CPU под плотность подов: пошагово

Расчет CPU лучше начинать не с «сколько ядер помещается в 1U», а с того, сколько CPU реально запросит планировщик и сколько CPU действительно нужно вашим сервисам под нагрузкой.

1) Соберите профиль узла по requests/limits

Сведите по каждому сервису CPU requests и limits (или хотя бы requests) и умножьте на планируемое число реплик на узел. Отдельно отметьте поды с «рывками» (фоновые задачи, очереди, отчеты). Именно requests в первую очередь ограничивают плотность: scheduler не посадит на узел больше, чем позволяет сумма requests.

2) Добавьте системный запас

На узле всегда есть постоянные потребители CPU: kubelet, container runtime, CNI, DNS, логирование, мониторинг, security-агенты. Если оставить под них «ноль», вы получите редкие, но неприятные пики задержек. Практичный подход - заранее резервировать часть ядер под систему и сервисные агенты и не отдавать их приложениям в расчетах.

3) Выберите целевую загрузку

Держать CPU постоянно на пределе плохо для микросервисов: растет задержка, очереди запросов и время сборки мусора в JVM/Go. Обычно разумно планировать так, чтобы типовая загрузка была ниже максимума, а запас закрывал пики и переезды подов.

4) Сверьте «сколько поместится» и «как будет работать»

Плотность ограничивают сразу несколько вещей: сумма requests, реальная производительность (частота, тип нагрузки, пики), политика limits (троттлинг), нагрузка от сети (CPU на обработку пакетов) и структура подов (много мелких или меньше, но тяжелых).

Если по requests «влезает много», но сервисы чувствительны к задержкам, комфортная плотность будет ниже.

5) Проверьте частоту, NUMA и контекстные переключения

В 1U легко набрать много ядер, но это не всегда дает выигрыш. Для latency-чувствительных сервисов важна высокая частота на ядро, а не только общее число ядер. Слишком много мелких подов с активными потоками увеличивают контекстные переключения и могут съедать CPU «впустую». Если у вас есть тяжелые многопоточные поды, заранее проверьте, не упираются ли они в NUMA и не теряют ли производительность при миграции по ядрам.

Подбор RAM: как избежать OOM и потери плотности

Пилот перед закупкой

Соберем пилот на 1-2 узлах и проверим p95 задержки и стабильность подов.

Обсудить пилот

OOMKill в Kubernetes часто выглядит как «мало RAM», но причина бывает другой. Самый частый сценарий: поду поставили слишком низкий memory limit, приложение иногда делает пик (кэш, всплеск трафика, прогрев), и ядро убивает процесс, хотя на узле память еще есть. Обратная проблема тоже встречается: limits выставлены «с запасом», и планировщик перестает уплотнять поды, хотя реальное потребление ниже.

Практичный расчет узла лучше делать от requests, а не от «паспортного» объема RAM. Берите сумму memory requests всех подов, которые планируете держать на узле, и добавляйте запас под то, что в requests обычно не учитывают: page cache, буферы, системные процессы, kubelet, container runtime, CNI, логирование.

Ориентир по шагам:

сложите memory requests для целевой плотности и добавьте 20-40% на пики и неровный профиль нагрузки;
заложите RAM под ОС и компоненты узла (часто это ощутимая доля, особенно при большом числе агентов);
оставьте место под page cache, если контейнеры активно читают образы, конфиги, логи или работают с локальным диском;
проверьте, не сидят ли важные поды на BestEffort или Burstable без реальных лимитов: они первыми попадают под давление памяти.

Когда выгоднее больше RAM на узел, а когда больше узлов поменьше? Больше RAM помогает уплотнить микросервисы и уменьшить количество железа, но крупный узел увеличивает «радиус падения» при аварии и усложняет обновления. Если у вас жесткие SLO и критичные сервисы, часто лучше 2-3 узла поменьше, чем один очень большой, чтобы сбой или drain не сносил половину подов.

Нюансы по рантаймам тоже влияют на расчет. Java часто упирается в heap: задайте Xmx заметно ниже лимита, иначе за пределы heap выйдут метаданные, JIT, direct buffers, и вы получите OOM. .NET может фрагментировать память под нагрузкой, поэтому «стабильно ниже лимита» не гарантирует отсутствие пиков. Python любит держать выделенные арены, и RSS может расти даже при сборке мусора.

Если OOM повторяется, не спешите добавлять RAM. Сначала проверьте: растет ли RSS монотонно (похоже на утечку), есть ли резкие «пилы» от GC, совпадают ли убийства с пиками трафика. Пример: сервис с request 512 MiB и limit 600 MiB может падать раз в день на прогреве кэша, хотя среднее потребление 350 MiB. В таком случае правильнее поднять limit и настроить кэш, чем увеличивать память всего узла.

Локальные NVMe: где они дают выигрыш, а где создают риск

Локальные NVMe в 1U сервере часто дают самый заметный прирост «ощущаемой» скорости узла Kubernetes. Но важно понимать, что именно вы ускоряете: на локальном диске живут образы контейнеров, writable layer, временные каталоги типа emptyDir, кэши приложения, логи и любые временные файлы.

NVMe оправданы, когда поды много читают и пишут мелкими блоками, а задержка важнее объема. Типичные примеры - локальный кэш (например, для API, которое постоянно перечитывает одни и те же данные), быстрый scratch для обработки файлов, очереди и промежуточные результаты. Еще один плюс - ускорение частых деплоев за счет быстрых pull и распаковки образов.

Риск начинается там, где данные должны пережить падение узла и легко переехать на другой. Если вы держите на локальном NVMe состояние, которое «обязано сохраниться», то при перезагрузке, замене диска или эвакуации узла получите потерю данных или долгий простой. Для таких нагрузок лучше сетевое хранилище или другой внешний storage, чтобы Stateful-поды можно было безопасно пересоздавать и переносить.

При выборе NVMe смотрите не только на терабайты. Для плотности подов чаще упираются в IOPS и латентность, особенно на записи. Полезно заранее прикинуть профиль: сколько подов одновременно пишет, какого размера записи, и что будет при пике (логирование, бэкапы, перекомпоновка данных, массовый рестарт).

Практики, которые чаще всего спасают от сюрпризов:

отделить системный диск от диска под container runtime и образы;
выделить отдельный том/раздел под кэши и emptyDir, чтобы временные данные не «съели» место у образов;
настроить requests/limits по ephemeral storage, иначе один шумный под может забить диск всему узлу;
следить за inode и скоростью очистки: «место есть, а писать нельзя» встречается чаще, чем кажется.

Если NVMe используется как ускоритель, а не как «единственное хранилище», узел получается быстрым и предсказуемым. Если смешать все в один том и хранить критичные данные локально, проблемы обычно проявляются в самый неподходящий момент.

Сетевые опции, которые чаще всего создают узкие места

Даже если CPU, RAM и NVMe подобраны правильно, кластер может «тормозить» из-за сети. Узкое место часто выглядит как «просто медленные запросы», а не как явная ошибка.

MTU, jumbo frames и скрытая фрагментация

Самая частая мелкая ошибка - разный MTU по пути. Например, на узлах включили jumbo frames, а где-то между стойками или до балансировщика осталось стандартное значение. Итог - фрагментация или drop, повторные передачи, скачки задержек. В Kubernetes это особенно заметно при CNI с инкапсуляцией (VXLAN/Geneve): туннель добавляет служебные байты, и «безопасный» MTU становится меньше.

Практическое правило: выбирайте один MTU для всего пути и проверяйте его end-to-end, включая uplink, ToR, межкоммутаторные линки и, если есть, внешние FW/балансировщики. Jumbo frames помогают там, где много больших пакетов (репликация, бэкапы, большие ответы), но ломают взаимодействие, если хотя бы один участок не готов.

Очереди NIC, RSS и «один перегретый поток»

Часто проблема не в пропускной способности порта, а в том, что обработка трафика упирается в одно ядро. Если RSS (распределение потоков по очередям) настроен плохо или очередей мало, один busy-pod или один сервис может «забить» очередь. В итоге latency растет при вроде бы невысокой загрузке линка.

Bonding/LACP и неудачное хэширование

Агрегация линков не всегда дает линейный прирост. При LACP трафик одного соединения может «липнуть» к одному физическому порту из-за хэша (MAC/IP/порт). Типичный случай - один очень активный сервис или один ingress, и половина бондинга простаивает.

CNI, инкапсуляция и service mesh

Туннели CNI добавляют overhead и нагрузку на CPU, а service mesh увеличивает east-west трафик и добавляет хопы, шифрование и прокси на каждом запросе. В микросервисах задержки растут заметнее, чем кажется по CPU-графикам.

То, что чаще всего помогает, если делать по порядку:

выровнять MTU по всему пути и учесть overhead туннеля CNI;
включить и проверить RSS, число очередей и привязку прерываний;
проверить хэш-политику LACP под ваш трафик (много коротких или мало длинных сессий);
измерить p95/p99 latency east-west с mesh и без него на тестовом стенде;
не включать «ускоряющие» опции пачкой без измерений до и после.

Пример: если после включения service mesh выросла задержка между подами, а загрузка порта выглядит нормальной, причина часто в CPU на обработке пакетов, очередях NIC и дополнительной прокси-логике, а не в самом линке.

Частые ошибки в расчетах и настройках узла

Расчет узла под Kubernetes

Поможем прикинуть CPU RAM NVMe и сеть под вашу целевую плотность подов.

Запросить расчет

Даже удачно подобранный 1U сервер может дать низкую плотность подов из-за типичных промахов. Ниже - то, что чаще всего ломает ожидания по производительности и стоимости владения, когда PowerEdge R660 используют как универсальный узел под микросервисы.

CPU: цифры есть, пользы нет

Частая ошибка - завышенные CPU limits: планировщик видит узел «занятым», хотя реальная нагрузка низкая, и вы теряете плотность. Обратная крайность - слишком много мелких подов с крошечными request: растут накладные расходы, чаще происходят переключения контекста, и CPU уходит не на бизнес-логику.

Отдельный риск - pinning и выделенные ядра без понимания NUMA. На двухсокетном 1U можно получить рост задержек, если поды тянут память через «чужой» сокет.

RAM: OOM не всегда означает «мало памяти»

Requests часто ставят ниже реального потребления «в среднем», забывая про пики. Итог - OOMKill и перезапуски вместо стабильной работы. Второй промах - отсутствие headroom под системные процессы, kubelet, CNI и page cache. Кэши тоже память: если их игнорировать, узел чаще читает с диска, и сервисы «плывут» по задержкам.

Локальные NVMe: быстрые, но легко переполнить

Локальный диск забивается образами, временными файлами и логами. Если все задачи пишут в один NVMe (и там же живет containerd), появляются очереди, а при заполнении диска поды начинают падать неожиданно. Типичный сценарий: включили подробные логи на сутки, и свободное место ушло за ночь.

Сеть и операции: узкое место, которое сложно увидеть

Сетевые проблемы часто выглядят как «медленные сервисы». Частые причины: несовпадающий MTU между узлом, CNI и сетью; неверно настроенный LACP; ограничения на уровне виртуального свитча или политик (rate limit, security rules); неподходящая модель прерываний и очередей NIC; отсутствие наблюдаемости и нагрузочных тестов.

Если метрики, логи и трассировка не собраны заранее, вы будете спорить, «виноват CPU или сеть», вместо того чтобы увидеть конкретный лимит и исправить его.

Быстрый чек-лист: что проверить до покупки и после ввода

Если вы выбираете Dell PowerEdge R660 под Kubernetes, держите простую цель: узел должен выдерживать нужную плотность подов без троттлинга по CPU, OOM по памяти, очередей на диске и сетевых потерь.

До покупки: снимите профиль нагрузки

Собирайте данные не по среднему, а по пикам (p95) и по симптомам.

CPU: средняя и p95 загрузка по узлам, наличие throttling, длина run queue, рост контекстных переключений.
RAM: working set, роль page cache, частота OOM и признаки memory pressure.
Диск: заполненность, p95 IOPS/latency, очереди, поведение записи логов под нагрузкой.
Сеть: drops, retransmits, p95 задержки и загрузка интерфейсов по направлениям (pod-pod, pod-service, ingress-egress).
Kubernetes: частота eviction, рестарты контейнеров, время старта пода, скорость pull образов.

После ввода: убедитесь, что узел держит плотность

Первые 1-2 недели смотрите не только метрики, но и события.

Стабильность подов: нет ли всплесков рестартов и eviction при типовых пиках.
CPU без сюрпризов: если p95 близко к 100% и растет throttling, реальная плотность уже уперлась.
Память без скрытых потерь: если working set растет, а page cache постоянно сбрасывается, обычно падают и скорость, и плотность.
Диск без очередей: рост latency на записи логов или временные файлы быстро бьет по tail latency микросервисов.
Сеть без потерь: регулярные retransmits и рост p95 latency чаще всего означают ошибку настройки (скорость порта, bond/LACP, offload, MTU) или нехватку пропускной способности.

Практичный прием: выберите 2-3 самых «шумных» сервиса и прогоните их типовой пик нагрузки. Если именно на них появляются throttling, OOM, рост дисковых очередей или retransmits, узел упирается раньше, чем кажется по сухим лимитам.

Пример расчета для типичного кластера микросервисов

Подбор серверов под нагрузку

Рассмотрим альтернативы и поможем собрать предсказуемый 1U узел под микросервисы.

Выбрать сервер

Представим узел уровня Dell PowerEdge R660 в кластере из 20-40 микросервисов: часть обслуживает HTTP, часть работает с очередями, плюс небольшой кэш и фоновые воркеры. Цель - посадить больше подов, но не получить скачки latency и внезапные рестарты.

Черновой расчет по CPU и RAM

Начните со среднего профиля пода. Допустим, по факту наблюдений команда приложения дает такие requests (а limits ставят выше, чтобы пережить пики):

CPU request: 250m на под
RAM request: 600Mi на под
Средний пик CPU: до 800m
Средний пик RAM: до 1.2Gi
Реплик в среднем: 2-3 на сервис

Теперь вместимость узла. Если в узле 32 физических ядра и 256 ГБ RAM, не отдавайте все под Kubernetes: оставьте около 1-2 ядер и 8-16 ГБ под ОС, kubelet, логи и DaemonSet-поды (мониторинг, CNI, CSI). Остается примерно 30 ядер и 230 ГБ.

По CPU: 30 / 0.25 = около 120 подов по requests. По памяти: 230 / 0.6 = около 380 подов. Значит, ограничение здесь CPU. Реалистичная плотность будет ближе к 80-110 подов, если вы хотите запас под пики и не хотите постоянный throttling.

Локальные NVMe могут заметно ускорить деплои и рестарты (быстрее pull и распаковка образов, быстрее ephemeral storage, локальный кэш). Но кэш и очереди на локальном NVMe должны быть либо легко восстанавливаемыми, либо с репликацией на уровне приложения, иначе при потере узла вы теряете данные.

Типовая сетевая проблема и как ее заметить

В таком кластере сеть часто упирается не в «скорость порта», а в настройки и нагрузку на CPU: переполненный conntrack, лишний NAT, неудачный MTU, мало очередей на NIC, либо прерывания от сети съедают ядра.

Признаки в метриках, что узел стал сетевым узким местом:

растет p95/p99 latency на HTTP при нормальном CPU по requests;
увеличиваются drops/errors на интерфейсе и ретрансляции;
растет conntrack utilization и число timeouts;
CPU system/softirq растет вместе с трафиком.

Компромисс, который часто выигрывает: снизить плотность подов на узел на 10-20% и закрепить часть ресурсов (CPU/RAM) под системные компоненты и сеть. Пиковая производительность может быть ниже, зато latency становится стабильнее и кластер проще сопровождать.

Следующие шаги: пилот, проверка и масштабирование

Перед покупкой партии серверов договоритесь о простых целях: какие SLO важны (задержка, ошибки, время восстановления), какая плотность подов нужна на узел, и что считать «нормальной» утилизацией CPU, RAM, диска и сети. Это превращает спор «сколько ядер» в понятный расчет и снижает риск переплатить или упереться в лимиты.

Пилот лучше делать на 1-2 одинаковых узлах, близких к целевой конфигурации. Важно прогнать не синтетический бенчмарк, а реальный профиль: ваш Ingress, ваш CNI, ваши образы, ваши лимиты и ваши привычные пики.

Мини-пилот: что проверить за 1-2 недели

Зафиксируйте цифры в одном месте и сравните «как планировали» с «как получилось».

Сопоставьте requests/limits с реальным потреблением и отметьте, где плотность режется памятью, а где CPU.
Проверьте сеть: пропускную способность east-west, p95 задержку, errors/drops и согласование MTU.
Проверьте локальные NVMe: p95 задержку записи, поведение при заполнении, что происходит при рестарте подов и бурсте логов.
Посмотрите на автоскейлеры и eviction: сколько подов реально пересоздается при пиковой нагрузке.

После пилота зафиксируйте стандарты, чтобы результаты повторялись: шаблоны requests/limits, правила логирования, политики образов (размер, частота pull), единый MTU и параметры драйверов.

План роста: чтобы масштабирование было предсказуемым

Дальше полезно думать не только «добавим узлы», а «какие роли узлов нужны».

Разделяйте роли при необходимости: compute под микросервисы, отдельные узлы под ingress, отдельные под stateful-нагрузки. Закладывайте резерв минимум N+1 по мощности, чтобы переживать ремонт, обновления и всплески. И заранее опишите процедуру расширения: сколько узлов добавляете за раз и как проверяете, что сеть и хранилище не стали новым узким местом.

Если нужна помощь с расчетом конфигураций, пилотом и вводом в ЦОД, GSE.kz может выступить системным интегратором: подобрать и поставить серверы и инфраструктуру под кластер, а дальше закрыть поддержку 24/7 через сервисную сеть по Казахстану.

FAQ

Зачем вообще брать 1U сервер под Kubernetes, а не что-то крупнее?

1U узел обычно берут как предсказуемую «единицу масштаба»: добавили сервер в стойку — получили понятный прирост мощности и простую замену при отказе. Он особенно удобен для микросервисов, где важно быстро наращивать кластер и держать одинаковый профиль узлов.

Что реально ограничивает плотность подов на одном узле?

Планировщик размещает поды по **requests**, а не по **limits**, поэтому плотность чаще всего ограничивает именно сумма requests плюс резерв под системные компоненты. Если requests занижены, подов «влезет» много, но на пиках вы получите конкуренцию за CPU и память, рост задержек и нестабильность.

Как прикинуть, сколько CPU нужно на узел под нужное число подов?

Начните с суммарных CPU requests подов, которые вы хотите держать на узле, и заранее вычтите запас под kubelet, рантайм контейнеров, CNI и агентские DaemonSet-поды. Затем планируйте узел так, чтобы типовая загрузка не упиралась в 100%, иначе latency будет расти даже без явных ошибок.

Как понять, что уперлись в CPU и начался throttling?

**Throttling** проявляется как «узел живой, но сервис тормозит»: растут задержки, очереди запросов, HPA может постоянно масштабировать без заметного эффекта. Это частый результат слишком жестких CPU limits или ситуации, когда много подов одновременно пытаются «взять больше», чем есть свободного процессорного времени.

Почему поды получают OOMKilled даже когда кажется, что RAM на сервере хватает?

OOM в Kubernetes часто случается из‑за слишком низкого **memory limit**, а не из‑за общего дефицита памяти на сервере. Практичный подход — держать limit с запасом под прогрев, всплески трафика и особенности рантайма (например, JVM), а еще оставлять заметный headroom на системный overhead и page cache, иначе плотность будет падать при реальной нагрузке.

Как правильно считать RAM на узле, чтобы не терять плотность подов?

Ориентируйтесь на сумму **memory requests** для целевой плотности и добавьте запас на пики и «скрытую» память, которую часто не учитывают в манифестах. Если вы хотите меньше аварийных рестартов и eviction, лучше заранее заложить место под ОС, DaemonSet-агенты и файловый кэш, чем потом лечить нестабильность увеличением узла вслепую.

Когда локальные NVMe действительно дают выигрыш в Kubernetes?

Локальные NVMe особенно полезны для быстрых pull и распаковки образов, временных файлов и кэшей, где важна низкая задержка на мелких операциях. Риск начинается, когда на локальном диске оказывается состояние, которое должно переживать падение узла: тогда отказ или обслуживание сервера превращается в простой или потерю данных.

Какие сетевые настройки чаще всего становятся узким местом в кластере?

Чаще всего проблема — несовпадающий MTU по пути, из‑за чего появляются фрагментация, потери и ретраи, особенно при CNI с инкапсуляцией. Второй типичный сценарий — сеть «греет» одно ядро из‑за очередей NIC и softirq: порт вроде не забит, а p95/p99 задержки растут.

Как понять, что уперлись в диск, а не в CPU или память?

Если узел долго запускает поды, тормозит запись логов и «подвисают» базовые операции, проверьте p95 задержку диска и заполнение ephemeral storage. Частая причина — один шумный под, который забивает диск логами или временными файлами, поэтому важно задавать лимиты на ephemeral storage и следить за очисткой.

Что проверить на пилоте перед покупкой партии серверов под Kubernetes?

Пилот на 1–2 узлах должен повторять реальную картину: ваш CNI, Ingress, образы, лимиты и типовые пики, иначе выводы будут неверными. Если нужна помощь с подбором конфигурации, поставкой и вводом в эксплуатацию, GSE.kz может выступить системным интегратором и закрыть дальнейшую поддержку 24/7 через сервисную сеть по Казахстану.