29 янв. 2025 г.·8 мин

Сравнение Rancher, OpenShift и Tanzu для enterprise Kubernetes

Сравнение Rancher, OpenShift и Tanzu по обновлениям, безопасности, сертификатам, поддержке и навыкам команды, чтобы выбрать платформу.

Задача: выбрать платформу, а не «ещё один Kubernetes»

В enterprise-среде Kubernetes редко выбирают ради самого Kubernetes. Развернуть кластер можно разными способами. Реальная задача - выбрать платформу, которая делает эксплуатацию предсказуемой: кто и как обновляет кластеры, как закрываются уязвимости, как выполняются требования безопасности, и что делать, когда что-то ломается ночью.

Обычно болит не «как поднять кластер», а как жить с ним годами: версии Kubernetes и аддонов, риски безопасности, нехватка людей, разный уровень зрелости команд и процессов в разных подразделениях.

Поэтому «просто Kubernetes» и «платформа» - разные вещи. Платформа снимает часть рутины и снижает вероятность ошибок. Она задает правила, инструменты и границы: что можно делать в кластере, как это проверяется, и как быстро откатиться, если обновление пошло не так.

Когда читаете материалы в стиле «Сравнение Rancher, OpenShift и Tanzu», полезно мысленно выключить бренды и задавать одинаковые вопросы к каждому варианту: как устроен жизненный цикл, что включено в безопасность по умолчанию, какие документы и артефакты реально нужны вашему аудиту, и какой уровень поддержки вы получаете.

Простой пример: если у вас критичный сервис для госоргана или банка, цена простоя выше цены лицензии. Тогда важнее не «функций побольше», а четкие окна обновлений, понятный процесс расследования инцидентов и поддержка с предсказуемым SLA. В таких проектах системный интегратор (например, GSE.kz) помогает оценить не только платформу, но и готовность процессов и команды к ее эксплуатации.

Коротко о Rancher, OpenShift и Tanzu без лишних терминов

Если упростить, все три варианта отвечают на один вопрос: как управлять Kubernetes в компании так, чтобы кластеры обновлялись по плану, доступы были под контролем, а поддержка не зависела от одного человека.

Rancher часто выбирают как «панель управления» для нескольких кластеров. Он помогает создавать, подключать и обслуживать кластеры в разных средах, выдавать доступы командам, включать политики и следить за состоянием. При этом многое вокруг (реестр, CI/CD, мониторинг) обычно собирают из привычных инструментов или из того, что уже есть в компании.

OpenShift чаще воспринимают как более цельную платформу: Kubernetes плюс набор встроенных практик и компонентов, которые задают правила игры. Обычно «из коробки» вы получаете более строгое управление тем, как запускаются приложения, как устроены права и как проходит жизненный цикл платформы. Это удобно, когда важны единые стандарты и предсказуемость.

Tanzu логично смотреть, если у вас сильная зависимость от VMware и вы хотите, чтобы Kubernetes встроился в ту же модель управления инфраструктурой. Тогда кластеры, доступы и обновления проще включить в текущие процессы.

Важно помнить: платформа почти никогда не закрывает всё. Даже с «полным набором» вам нужно договориться про резервные копии, логирование, хранение секретов, управление образами и правила выката.

Перед выбором уточните заранее:

где будут кластеры: on-prem, облако или гибрид
нужна ли изоляция сред и команд (мультиарендность)
есть ли требования к работе без интернета (закрытый контур)
какие проверки безопасности и аудита обязательны (особенно для госсектора и финансов)
кто будет владельцем платформы: platform team, инфраструктура/DevOps или продуктовые команды

Как сравнивать правильно: критерии и веса

Сравнение Rancher, OpenShift и Tanzu проще всего делать как выбор продукта: сначала фиксируете, что вам реально нужно, и только потом смотрите на названия и «фишки». Иначе легко выбрать платформу, которая отлично выглядит на демо, но неудобна в ежедневной работе.

Начните с короткой, но точной рамки: регуляторные требования (например, для госсектора или финансов), сроки запуска и критичность систем. Параллельно определите масштаб: сколько кластеров будет через год, сколько команд и окружений (dev/test/prod), есть ли регионы и отдельные площадки.

Дальше помогает простой процесс:

Соберите требования в одной таблице: must-have, nice-to-have, «позже».
Выберите критерии и назначьте им веса (например, обновления 25%, безопасность 30%, поддержка 25%, навыки команды 20%).
Согласуйте «красные линии» до пилота, чтобы не спорить в конце.
Решите, кто владелец платформы и кто утверждает изменения.
Проведите короткий пилот по одному сценарию (один сервис, один кластер, один процесс обновления) и поставьте оценки по тем же критериям.

«Красные линии» лучше формулировать как запреты: отсутствие 24/7 поддержки, невозможность быстро закрывать CVE, отсутствие контроля политик доступа, обновления, которые требуют слишком много ручных шагов.

Если у вас критичные сервисы в здравоохранении или госсекторе, вес безопасности и поддержки обычно выше, чем «удобство интерфейса». А если команда небольшая, решающим становится критерий «сколько людей нужно, чтобы жить с платформой».

Если внедряете платформу через интегратора, заранее уточните, кто сопровождает ее после запуска и как это оформляется в SLA. В Казахстане это особенно важно, когда инфраструктура распределена по регионам и требуется понятная схема поддержки на месте.

Обновления и жизненный цикл: насколько это управляемо

В enterprise-платформах обновления - это не «нажали кнопку и готово». У каждой экосистемы свой ритм релизов, свои поддерживаемые версии и правила совместимости между Kubernetes, сетевыми компонентами, ingress, хранилищем, мониторингом и политиками безопасности. Поэтому сравнение по обновлениям лучше начинать не с функций, а с вопроса: насколько предсказуемо вы сможете жить 2-3 года.

Главный выбор простой: вам важнее быстрее получать новые версии или иметь максимально стабильный, заранее проверенный путь обновления. В банке или госоргане обычно выигрывает предсказуемость с понятным жизненным циклом. В продуктовой команде иногда важнее скорость, если она не ломает процессы.

Практично разделять обновление на две части: кластер и «всё вокруг». Даже если Kubernetes обновляется ровно, аддоны часто становятся причиной задержек. Например, политика безопасности может потребовать обновить сканирование образов или контроль сетевых правил раньше, чем сам кластер.

При оценке попросите показать обновление по шагам и явно разделить ответственность: что делает платформа, а что ложится на вашу команду. Хорошие ориентиры:

есть ли понятная обратимость (rollback), и что реально откатывается, а что нет
сколько ручных действий нужно: один плановый процесс или серия «поправьте тут, донастройте там»
нужны ли окна простоя, и как обновляются control plane и рабочие ноды
насколько автоматизируются проверки: пред-чеки, пост-чеки, тестовый прогон
как устроена матрица совместимости (Kubernetes, ОС, runtime, CNI, CSI, ingress)

Хороший признак - когда у вас на руках есть два артефакта: матрица совместимости и годовой план обновлений (хотя бы по кварталам), плюс отдельный тестовый контур. Для кластера с критичными сервисами в медицине это позволяет заранее закрепить порядок: тест, затем резервный контур, затем продуктив, с фиксированными датами и критериями отката.

Если делаете сравнение, просите не презентацию, а реальный сценарий обновления: сколько часов, кто участвует, какие риски, какие логи и отчеты вы получите после.

Безопасность: от доступа до контроля образов и политик

Безопасность в Kubernetes - это не одна настройка, а набор правил, которые должны работать вместе. В сравнении платформ важнее не обещания, а то, насколько реально закрываются типовые риски: лишние права, небезопасные образы, ошибки в сетевых доступах и отсутствие аудита.

Начните с базовой гигиены доступа. Проверьте, как платформа помогает настраивать RBAC (роли и права), управлять секретами (пароли, ключи, токены), включать аудит действий и ограничивать доступ между сервисами через сетевые правила. Разница обычно не в том, «можно ли», а в том, насколько легко сделать это одинаково во всех кластерах и поддерживать годами.

Чтобы оценка была практичной, попросите показать минимальный безопасный контур для одной команды и одного приложения:

отдельные роли для разработчиков, админов и CI/CD
изоляция dev, test, prod с понятными границами
сетевые правила: кто с кем может общаться по умолчанию
управление секретами без хранения в открытом виде
аудит: кто менял права, деплоил, открывал доступ

Отдельный блок - защита цепочки поставки. Спрашивайте не только про сканирование образов, но и про контроль того, что вообще можно запускать: «только из доверенного реестра», проверка подписей (если используете), запреты на образы с критическими уязвимостями. Уточните, как правила применяются (проект, namespace или весь кластер) и что происходит при нарушении (блокировка, предупреждение, исключение по заявке).

Изоляция арендаторов (разные команды, подрядчики, внешние сервисы) тоже критична. Частый сценарий: одна организация ведет несколько систем, доступ к prod ограничен, но поддержка дежурных и аудит остаются. Для государственных, медицинских и финансовых проектов это обычно обязательное требование.

Не забудьте про безопасность в наблюдаемости: кто имеет доступ к логам, сколько они хранятся, можно ли отделить «видимость» одной команды от другой. Проверьте и права на просмотр событий кластера: иногда через них утекaют детали инфраструктуры.

Вопросы, которые стоит задать вендору и интегратору:

какие политики безопасности включены «по умолчанию» и почему
как контролируется запуск небезопасных образов и как оформляются исключения
как устроен аудит: что пишется, где хранится, кто читает
как разделяются dev/test/prod и разные команды без ручной рутины
какие навыки нужны команде, чтобы поддерживать этот уровень годами

Сертификаты и соответствие требованиям: что проверять на практике

Интеграция без серых зон

Соберем архитектуру on-prem или гибрида с учетом сети, СХД, DNS и сертификатов.

Оставить заявку

В теме соответствия легко запутаться, потому что под словом «сертификат» часто имеют в виду разное: соответствие стандартам (например, ISO-процессы у поставщика), сертификацию отдельных компонентов (модули безопасности, криптография, контейнерный реестр), а также внутренние требования вашей организации (политики доступа, хранение логов, правила обновлений). Важно сразу разделить эти уровни.

Аудит почти никогда не ограничивается PDF от поставщика. Обычно просят доказательства того, как вы реально управляете платформой: кто и как получает доступ, как подтверждаются изменения, как фиксируются события и что происходит при инциденте.

На практике чаще всего проверяют три вещи:

политика обновлений и жизненный цикл: кто утверждает обновления, как тестируете, как откатываетесь
контроль доступа: роли, принцип минимальных привилегий, MFA/SSO, управление сервисными аккаунтами
журналирование: какие логи собираете (кластер, приложения, доступ), срок хранения, неизменяемость

Чтобы оценить готовность к требованиям вашей отрасли (госорганы, финсектор, медицина), заранее запросите документы и артефакты:

матрицу функций безопасности (что есть «из коробки», что нужно добавить)
процедуры управления изменениями и патчами
описание модели ролей и интеграций с IAM/SSO
политику логирования и пример выгрузки логов и аудита
список поддерживаемых версий и окно поддержки

Главная ловушка: «сертификат продукта» не равен «сертифицированному процессу». Аудитору важнее, что ваш процесс внедрения, эксплуатации и контроля работает и подтверждается записями.

Поддержка и SLA: кто поможет в 3 часа ночи

Когда кластер падает в 3 часа ночи, важнее не «какая платформа лучше», а кто реально возьмет инцидент в работу и доведет до восстановления. Этот пункт часто недооценивают, хотя именно он определяет простой сервисов и нервы команды.

Начните с режима поддержки. 8/5 подходит для стендов разработки и некритичных сервисов. Для продакшена с клиентскими системами обычно нужен 24/7, с понятным временем реакции на P1 (критический инцидент) и четкими правилами, что считается P1, P2, P3.

Дальше проверьте границы ответственности. Поддержка «только платформы» не спасет, если проблема в ОС, сетевом плагине, хранилище, DNS, сертификатах или резервном копировании. Самое опасное место - «серая зона» между компонентами, где один поставщик говорит «это не наше».

Заранее задайте вопросы, которые быстро проясняют картину:

что входит в поддержку: Kubernetes, панель управления, ОС узлов, сеть, хранилища, бэкапы, registry, политики безопасности
как выглядит эскалация: один контакт или вы сами координируете нескольких поставщиков
кто делает патчи безопасности и в какие сроки для критических CVE
как согласуются окна обслуживания и кто отвечает за регрессию после обновления
входит ли помощь с настройкой и разбор причин инцидента (postmortem)

Попросите измеримые метрики в SLA и понятный отчетный формат:

MTTR (среднее время восстановления) и целевые значения для P1
доступность платформы управления и критичных компонентов
время реакции и время обходного решения
частота и длительность окон обслуживания
доля инцидентов, закрытых без передачи «в другой отдел»

Пример: у больницы ночью перестали запускаться поды из-за проблемы с хранилищем. Если поддержка покрывает только «Kubernetes-платформу», дежурный будет искать причину между SAN, CSI-драйвером и политиками доступа. Если есть единый интегратор с 24/7 и заранее прописанной эскалацией, восстановиться обычно проще. У GSE.kz, например, есть 24/7 техническая поддержка и системная интеграция, что удобно, когда важно закрыть не только платформу, но и всю инфраструктурную цепочку.

Навыки команды: кого надо иметь и чему учить

Безопасность по умолчанию

Соберем минимально безопасный контур: RBAC, аудит, секреты и сетевые политики.

Настроить ИБ

Платформа Kubernetes редко «едет сама». На практике вы покупаете не только лицензии, но и постоянную работу команды: обновления, политики, доступы, наблюдаемость, разбор инцидентов. Поэтому при сравнении платформ полезно сразу посчитать, какие роли уже есть, а какие придется закрывать наймом или обучением.

Минимальный состав часто включает:

инженера платформы, который отвечает за кластеры, шаблоны и базовые сервисы
SRE или DevOps, который отвечает за эксплуатацию, CI/CD, релизы и инциденты
специалиста по безопасности (RBAC, секреты, политики, контроль образов)
сетевого инженера (DNS, балансировка, сегментация, входящий трафик)
специалиста по хранилищам (persistent storage, бэкапы, восстановление)

Из навыков почти всегда нужна база: уверенный Linux, понимание сетей (маршрутизация, NAT, DNS), TLS и сертификаты, основы Kubernetes (Pods, Services, Ingress, RBAC, namespaces). Если этого нет, любая платформа будет казаться сложной.

Дальше идут вещи, которые быстрее всего «съедают время» в эксплуатации. Полезно заранее решить, что вы реально используете в первый квартал: единый подход к раскатке манифестов (например, GitOps), политики соответствия, наблюдаемость (метрики, логи, трассировки и алерты), управление образами, процедуры обновлений и откатов.

Чтобы оценить «стоимость владения навыками», проведите короткий пилот на 2-3 типовых сервисах: внутренний портал, API и фоновые задачи с очередью. Посмотрите, сколько времени ушло на настройку доступа, выпуск сертификатов, подключение хранилища, сбор логов и первый апгрейд кластера.

По обучению обычно лучше всего работает связка: пилот + наставник на ежедневных задачах + короткие регламенты. Если внедрение и поддержка делаются вместе с интегратором, заранее закрепите, какие знания должны остаться у вашей команды после пилота, а что можно оставить на сопровождении.

Пример выбора: критичные сервисы и требования к контролю

Представьте госорган или банк, где большинство систем работают on-prem, обновления разрешены только в узких окнах, а любой инцидент потом разбирает аудит. Здесь «просто поднять Kubernetes» не подходит: нужна платформа, которая дает управляемость и доказуемый контроль.

Требования обычно формулируются не как «хотим OpenShift/Rancher/Tanzu», а как набор проверяемых правил: строгая сегментация сетей между командами и средами, централизованное журналирование действий администраторов и приложений, роли с принципом наименьших прав, обязательный процесс изменений (кто запросил, кто одобрил, что именно поменяли, как откатить).

Чтобы сравнение было честным, берите один и тот же сценарий и прогоняйте его через таблицу критериев. В строках - то, что важно именно вам (обновления, политика доступа, контроль образов, интеграция с каталогами пользователей, удобство аудита), в столбцах - платформы. Полезно добавить колонку «риск», где фиксируете, что будет, если функция есть, но требует много ручных действий и дисциплины.

Как выглядит пилот и что считать успехом

Хороший пилот занимает 2-4 недели и проверяет не «запускается ли кластер», а операционные сценарии:

развертывание тестового кластера по стандарту безопасности за 1-2 дня
обновление версии без простоя критичного сервиса или с заранее понятным окном
разбор учебного инцидента: кто что сделал, где логи, как быстро нашли причину
откат изменения и восстановление после сбоя

Операционные затраты оцените заранее: сколько людей нужно на 24/7, какие роли обязательны (платформенная команда, безопасность, сеть, хранилище), сколько стоит поддержка и какие границы SLA реалистичны.

Если инфраструктура тоже на вашей стороне (серверы, сеть, СХД), включите это в пилот: проверяйте на тех стойках и серверах, которые вы действительно будете закупать и обслуживать. В Казахстане такие пилоты часто делают на локальной базе и вместе с интегратором, чтобы сразу проверить полный цикл: железо, платформа, безопасность и сопровождение.

Быстрая проверка перед решением: чеклист на 10 минут

Перед встречей с вендорами или пилотом полезно сделать короткую «проверку на трезвость». Она не заменит детальное сравнение, но быстро покажет, где риски.

Сначала договоритесь, что именно вы выбираете: платформу для эксплуатации Kubernetes в продакшене, а не просто удобный интерфейс. Потом пройдитесь по пунктам и зафиксируйте ответы письменно, даже если они пока «не знаем».

Обновления и откат: есть ли годовой план версий, отдельный тестовый контур и понятная процедура отката (кто делает, сколько времени, что будет с приложениями и сетью).
Безопасность по умолчанию: включены ли политики доступа, есть ли аудит действий, контроль образов (сканирование и запреты) и понятная схема управления секретами без ручных «паролей в чат».
Комплаенс на практике: можете ли вы показать документы и артефакты, которые реально проверяют (логи и сроки хранения, процесс изменений и согласований, кто утверждает исключения).
Поддержка и эскалация: что написано в SLA, где границы ответственности (платформа, ОС, сеть, реестр, бэкапы) и какой путь эскалации, если инцидент ночью.
Команда и навыки: сколько людей нужно на поддержку, кто умеет разбирать инциденты и есть ли план обучения и дежурств на первые 3-6 месяцев.

Если у вас есть критичный сервис (например, прием платежей или регистрация пациентов), сценарий «обновимся раз в полгода вручную» почти всегда заканчивается простоем ночью. Главный вопрос здесь не «как красиво управлять», а «как безопасно обновлять и быстро откатывать».

Если вы планируете внедрение в Казахстане, часто важно заранее понять, кто будет отвечать за поддержку и интеграцию рядом с вашей командой. Системный интегратор вроде GSE.kz может закрыть часть вопросов по эксплуатации, процессам изменений и круглосуточной поддержке, но это нужно фиксировать в границах ответственности до выбора платформы.

Частые ошибки при выборе и внедрении

Готовность к проверкам и аудиту

Подготовим список артефактов для аудита: доступы, изменения, логи и сроки хранения.

Проверить комплаенс

Самая частая ошибка в том, что сравнение Rancher, OpenShift и Tanzu делают как покупку «коробки»: смотрят на список функций и цену, но почти не обсуждают, как это будет жить в эксплуатации. В итоге платформа выбрана, а дальше начинаются сюрпризы: обновления откладывают, доступы разрастаются, ответственность «плавает» между командами.

Что чаще всего ломает проект

Проблемы обычно повторяются:

выбор по демо и обещаниям без проверки ежедневных задач: обновления, откаты, управление секретами, аудит
ожидание, что обновления «сами поставятся»: без тестового контура и репетиции риск простоя резко растет
безопасность образов и доступов откладывают «на потом», а потом это превращается в ручные исключения и общие аккаунты
нет четких границ между платформой и инфраструктурой (сеть, хранилище, балансировщики, DNS, бэкапы), и при инциденте все ищут виноватого
пилот без плана миграции и возврата: если пилот не взлетел, нет понятного пути назад и критериев «останавливаемся»

Типовая ситуация: команда запускает пилот на одном кластере, а продакшен планирует сразу на три. В пилоте не проверяют восстановление после сбоя storage и ротацию сертификатов. При масштабировании выясняется, что процессы не описаны, а доступы выданы «временно».

Чтобы не попасть в эту ловушку, заранее договоритесь о критериях успеха пилота: сколько времени занимает обновление, кто подтверждает безопасность, как выглядит аварийный откат и кто дежурит по платформе ночью.

Следующие шаги: пилот, план внедрения и поддержка

Чтобы сравнение Rancher, OpenShift и Tanzu не осталось на бумаге, сначала соберите требования и выберите 2-3 кандидата для пилота. Берите один и тот же сценарий, который реально важен бизнесу: запуск клиентского сервиса с требованиями по доступности, журналированию и контролю доступа.

Рабочий порядок действий:

зафиксировать must-have: регионы, изоляция сред, требования ИБ, окна обновлений, кто будет админом
выбрать один тип нагрузки для теста (например, API + база или пакетная обработка)
определить, где будет пилот: отдельный кластер или выделенный сегмент
согласовать метрики успеха: время обновления, время восстановления, число ручных шагов
назначить владельцев: бизнес, ИТ-операции, ИБ

Пилот стоит планировать не как «поставили и работает», а как несколько стресс-ситуаций: развернули кластер, провели обновление Kubernetes и платформы, имитировали инцидент (например, падение узла), проверили аудит логов, восстановились из бэкапа. Так видно, где платформа помогает, а где всё держится на опыте пары людей.

Модель поддержки обсудите до выбора: кому звонят ночью, какие SLA нужны бизнесу, какие действия реально закрываются первой линией.

Затем зафиксируйте дорожную карту: сроки, обучение команды, регламенты эксплуатации (обновления, доступы, резервное копирование, реагирование). Если нужна помощь с проектированием, системной интеграцией, инфраструктурой и круглосуточной поддержкой, это можно закрыть через GSE.kz - особенно когда важны понятная ответственность и поддержка на месте.

FAQ

Чем «платформа Kubernetes» отличается от «просто Kubernetes» в enterprise?

Выбирайте платформу, если вам нужно предсказуемо эксплуатировать кластеры годами: плановые обновления, контроль доступа, аудит, политики безопасности и понятная поддержка при инцидентах. «Просто Kubernetes» решает развертывание, но не закрывает ежедневную эксплуатацию и ответственность за «всё вокруг» — сеть, хранилища, реестр образов, бэкапы и процессы изменений.

Как правильно сравнивать Rancher, OpenShift и Tanzu, чтобы не выбрать по демо?

Начните с фиксации must-have требований: критичность сервисов, окна обслуживания, регуляторика, закрытый контур, мультиарендность и требования к аудиту. Затем задайте веса критериям (обновления, безопасность, поддержка, навыки команды) и оценивайте всех кандидатов по одной и той же таблице, а не по впечатлению от демо.

Что обязательно проверить в пилоте платформы перед покупкой?

Делайте пилот на одном реальном сценарии и проверяйте операционные задачи, а не факт установки. Минимум стоит прогнать развертывание по вашему стандарту безопасности, плановое обновление с проверками до и после, откат при проблеме и разбор учебного инцидента с получением логов и понятным отчетом.

Какие вопросы задать про обновления и жизненный цикл, чтобы избежать ночных простоев?

Попросите показать обновление «по шагам» и заранее зафиксируйте, кто отвечает за каждый шаг: платформа, ваша команда или интегратор. Важно понять, есть ли практический rollback, сколько ручных действий требуется, нужны ли простои и как проверяется совместимость между Kubernetes и ключевыми компонентами вроде сети, ingress и хранилища.

Что означает «безопасность по умолчанию» для Kubernetes-платформы на практике?

Смотрите не на заявления, а на то, насколько легко сделать одинаково безопасную конфигурацию во всех кластерах: RBAC, аудит действий, управление секретами и сетевые ограничения между сервисами. Хорошая проверка — попросить собрать «минимально безопасный контур» для одной команды и убедиться, что он поддерживается без постоянной ручной донастройки.

На что обратить внимание, если кластер должен работать в закрытом контуре без интернета?

Сначала уточните, поддерживает ли выбранный стек установку и обновления без прямого доступа в интернет и как доставляются патчи и образы в закрытый контур. Затем проверьте, как организованы локальный реестр образов, управление сертификатами и регулярное закрытие CVE, чтобы безопасность не зависела от ручных действий отдельных людей.

Какие документы и «артефакты» чаще всего реально спрашивают на аудите?

Обычно аудиту нужны доказательства процессов, а не только сертификаты поставщика: кто выдавал доступы, кто одобрял изменения, что именно меняли и какие события зафиксированы. Заранее запросите примеры артефактов: выгрузки аудита, политику хранения логов, процедуру патч-менеджмента и список поддерживаемых версий с окнами поддержки.

Как оценить поддержку и SLA, чтобы было кому помочь в 3 часа ночи?

Для продакшена с высокой критичностью стандарт — 24/7 с понятными уровнями инцидентов и измеримыми метриками реакции и восстановления. Самое важное — убрать «серую зону»: заранее прописать, кто отвечает не только за Kubernetes, но и за ОС узлов, сеть, хранилища, DNS, сертификаты и резервное копирование, иначе ночью начнутся перекидывания ответственности.

Какие роли и навыки нужны команде, чтобы «жить с платформой» годами?

Планируйте минимум владельца платформы (platform engineer), эксплуатацию и релизы (SRE/DevOps), безопасность (доступы, секреты, политики), а также экспертизу по сети и хранилищам. Если людей мало, выбирайте вариант, который снижает количество ручных операций, и заранее решите, что вы оставляете у себя, а что отдаете на сопровождение, чтобы не жить на энтузиазме пары специалистов.

Когда логичнее смотреть в сторону Rancher, OpenShift или Tanzu, не углубляясь в маркетинг?

Если у вас зрелая VMware-инфраструктура и процессы управления уже выстроены вокруг нее, Tanzu часто проще встроить в текущую модель. Если важны единые стандарты и строгий контроль «из коробки», OpenShift обычно дает более цельный подход. Если нужен удобный централизованный контроль нескольких кластеров, а остальную экосистему вы хотите собирать из привычных инструментов, Rancher часто оказывается практичным выбором.