Совместное реагирование на инциденты: L1-L3, SLA и runbook
Совместное реагирование на инциденты: как разделить L1-L3 между заказчиком, интегратором и производителем и закрепить в SLA и runbook.

В чем проблема при инцидентах по оборудованию
При сбое по железу чаще ломается не техника, а взаимодействие людей и процессов. Причина может быть понятной, но время уходит на организацию: кто принимает заявку, кто имеет доступ в серверную, кто вправе перезагрузить узел, кто общается с вендором и кто подписывает документы на замену.
Самое неприятное начинается в момент инцидента, когда цена минуты уже высокая. Эксплуатация хочет быстро вернуть сервис. Безопасность просит не трогать систему без согласований. Закупки напоминают про гарантию. Интегратор ждет подтверждений от заказчика. Производитель просит логи и серийные номера. Если заранее не договориться, «совместное реагирование на инциденты» превращается в цепочку догадок.
Чтобы не выяснять это ночью при аварии, заранее закройте несколько вопросов:
- кто делает первичную диагностику и фиксирует симптомы
- кто имеет физический доступ и право на действия с железом
- какие данные нужны для эскалации (логи, фото, инвентарные и серийные номера)
- что считается стартом отсчета времени реакции и восстановления
- кто принимает решение о замене, вывозе, ремонте по гарантии
Если эти вещи не прописаны, обычно теряются четыре ресурса: время (задачи гуляют между чатами и тикетами), данные (перезагрузка или замена делаются без фиксации рисков), ответственность (никто не хочет быть «последним, кто трогал систему») и гарантия (действия не совпадают с условиями производителя).
Эта схема нужна не только ИТ. Ей пользуются эксплуатация (дежурные смены и выезды), закупки (гарантия и сроки поставки), безопасность (доступы и следы действий) и владельцы сервисов, которым важно понятное время восстановления.
Простой пример: отказал блок питания в стойке. Если не определено, кто подтверждает диагноз, кто открывает кейс у производителя и кто организует выезд и допуск в ЦОД, то замена на «запасной» занимает не 20 минут, а полдня.
Термины и границы ответственности по железу
Путаница часто начинается с терминов. Если их не закрепить, один и тот же случай будет «инцидентом» для эксплуатации, «запросом» для сервис-деска и «гарантийным ремонтом» для производителя. В итоге теряется время и сложно измерять качество поддержки.
Четыре базовых типа обращений:
- Инцидент: что-то сломалось или работает хуже нормы и это мешает пользователям или сервису.
- Запрос: нужно «сделать/выдать/настроить», но ничего не сломано (например, добавить сервер в стойку по плану).
- Проблема: повторяющаяся причина нескольких инцидентов, которую нужно найти и устранить (например, перегрев из-за схемы размещения).
- Изменение: плановая правка в инфраструктуре, которая может повлиять на работу (прошивка, замена контроллера, перенос нагрузки).
Для аппаратных случаев уровни L1-L3 лучше описывать не «по людям», а по типам задач:
- L1 фиксирует симптомы, собирает базовые данные и проверяет очевидное по инструкции (питание, кабели, индикация, доступность, безопасный перезапуск).
- L2 углубляется в диагностику и локализацию: журналы iDRAC/iLO или аналогов, SMART, тесты памяти, RAID, сверка с типовыми кейсами, безопасные настройки и стандартные замены (если есть допуск).
- L3 подключается, когда нужен производитель или инженерный центр: редкие отказы, баги прошивки, подтверждение брака, рекомендации по обновлениям, запуск гарантийных процедур.
Важно провести границу между поддержкой и гарантийным ремонтом. Поддержка отвечает за восстановление работоспособности и снижение риска повторения. Гарантийный ремонт подтверждает дефект и запускает замену по условиям гарантии. Например, интегратор может выполнить диагностику и временно переключить сервис на резерв, а производитель инициирует RMA и поставку замены.
Термины, которые полезно объяснить простыми словами в SLA и runbook:
- on-site: выезд инженера на площадку
- remote: удаленная диагностика
- RMA: процедура возврата и замены неисправной детали
- запасные части (ЗИП): что хранится у заказчика или интегратора, что привозит производитель, какие сроки доставки и кто отвечает за совместимость
Кто за что отвечает: заказчик, интегратор, производитель
Главная причина сбоев в поддержке оборудования - не поломка, а путаница: кто принимает инцидент, кто принимает решение, кто реально едет на площадку и кто отвечает за запасные части. Это лечится разделением ролей и назначением одного владельца инцидента.
Заказчик ближе всех к фактам. Его зона ответственности - заметить проблему и дать условия для работы: мониторинг, первичная проверка (питание, кабели, индикаторы, сообщения в консоли), сбор базовых логов и серийных номеров, доступы и сопровождение площадки. Если нужен выезд, заказчик чаще всего обеспечивает допуск в серверную и контакт на месте.
Интегратор удобен как единая точка входа. Он принимает обращения, ведет коммуникации, отсеивает ложные срабатывания и координирует действия так, чтобы восстановление сервиса шло параллельно с разбором причины. Например, интегратор может организовать временный обход (перевод нагрузки на резерв), подготовить удаленную сессию и держать в курсе владельцев бизнес-сервиса.
Производитель нужен там, где начинается аппаратная экспертиза и гарантийные процедуры: подтверждение дефекта, ремонт или замена узла, поставка запчастей и RMA. Если оборудование отечественного производителя, важно, чтобы у него были процессы по прошивкам, совместимости комплектующих и замене по серийным номерам.
Интегратор может выступать как L2 или даже L3, если у него есть сертифицированные инженеры, склад ЗИП и право выполнять гарантийные работы. Но интегратор не должен «закрывать L3» там, где требуется решение на стороне производителя: инженерные изменения, закрытые диагностические утилиты, спор по гарантийному случаю или нестандартная замена компонентов.
Чтобы не было параллельных чатов и взаимных ожиданий, назначьте incident owner. Это один ответственный за итог и сроки, чаще всего интегратор (если он первая линия), реже заказчик (если поддержка внутренняя). У incident owner должны быть полномочия:
- принимать решение об эскалации и привлечении производителя
- собирать факты и фиксировать таймлайн
- согласовывать временные меры восстановления
- закрывать инцидент и инициировать разбор причин
RACI на один лист: как убрать серые зоны
Без RACI инцидент по железу быстро превращается в спор. Дежурный видит алерт, но непонятно, кто делает первый шаг: заказчик фиксирует проблему, интегратор проверяет конфигурацию, производитель меняет железо, а подрядчики площадки отвечают за питание и охлаждение. Пока участники уточняют границы, простой растет.
RACI раскладывает работу на роли:
- Responsible - выполняет
- Accountable - отвечает за результат и принимает решение
- Consulted - дает экспертизу
- Informed - получает статус
Важно, чтобы RACI был коротким и привязан к типовым инцидентам.
| Инцидент | Заказчик (эксплуатация) | Интегратор | Производитель | Подрядчики площадки (электрика, ОВиК, СКС) |
|---|---|---|---|---|
| Отказ диска/RAID деградация | R (зафиксировать, собрать логи) / A (доступ и окно работ) | C (проверка настроек, прошивки, совместимости) | R (диагностика, замена по гарантии) / A (качество запчасти) | I |
| Сбой питания/UPS | R (зафиксировать, перевести в безопасный режим) | C (проверить схему, PDU, мониторинг) | I (если есть повреждение железа) | R / A (ввод, UPS, щитовая) |
| Перегрев, авария по температуре | R (снятие показаний, ограничение нагрузки) | C (проверка датчиков, профилей вентиляторов) | C или R (если проблема в узле/прошивке) | R / A (кондиционирование, холодные коридоры) |
| Падение сети хранения (SAN/NAS) | R (симптомы, время, затронутые сервисы) | R / A (коммутация, zoning, multipath) | C (если причина в контроллере/сервере) | C (СКС, патч-панели) |
Где это фиксировать:
- базовую RACI - в договоре или приложении к контракту
- целевые времена реакции и эскалации - в SLA
- пошаговые действия и артефакты (логи, команды, контакты) - в runbook
Формулировки должны быть проверяемыми, а не «про намерения». Например:
- «Заказчик дает удаленный доступ в течение 30 минут»
- «Интегратор выполняет первичную диагностику до уровня интерфейсов и конфигурации»
- «Производитель подтверждает RMA при наличии серийного номера, логов и согласованного окна работ»
- «Подрядчик площадки измеряет питание на вводе и оформляет акт»
Отдельно пропишите, как вы подключаете площадочных подрядчиков: кто их вызывает, кто дает допуск, и кто принимает их работу. При инцидентах по питанию и охлаждению это самая частая серая зона.
Как распределить L1-L3: пошаговый подход
Чтобы совместное реагирование на инциденты не превращалось в «перекидывание» проблемы, начните с фактов: какое именно железо поддерживаем и какие сервисы на нем держатся.
Соберите базовый набор данных в одном месте: модели и серийные номера, сроки гарантии и контрактов, местоположение, контакты дежурных на площадке, критичность сервисов (например, «остановка приемного отделения», «простой бухгалтерии», «не влияет на работу»). Это сразу задает приоритеты и понятные цели по времени.
Дальше закрепите правило «одного тикета»: один входной канал, один номер, одна история действий. Если заказчик параллельно пишет интегратору и производителю, вы теряете время на сверку и спор «кто первый». Лучше заранее определить, кто принимает первичное обращение и кто открывает кейс у производителя.
Уровни L1-L3: действия, а не ярлыки
Опишите уровни через шаги, которые можно проверить по логам и времени:
- L1 (заказчик, дежурная смена): фиксирует симптомы, проверяет питание и кабели, снимает базовые логи, подтверждает влияние на сервис, открывает тикет.
- L2 (интегратор): локализует проблему, проверяет конфигурации, делает безопасные изменения, организует выезд инженера, готовит замену по складу.
- L3 (производитель): анализирует аппаратные ошибки, дает рекомендации по прошивкам и совместимости, подтверждает гарантийный случай, запускает RMA или поставку узла.
Эскалация: по времени и по симптомам
Согласуйте два триггера: когда повышаем уровень «по таймеру» и когда «сразу вверх». Сразу в L2 или L3 стоит уходить при таких признаках:
- повторяющиеся аппаратные ошибки в логах (ECC, RAID, BMC/IPMI)
- запах гари, срабатывание защиты питания, физическое повреждение
- деградация массива и риск потери данных
- массовый сбой однотипных узлов
Заранее согласуйте окна работ, доступы (в том числе к консоли управления), кто сопровождает на площадке и как соблюдается безопасность. Проведите короткую тренировку на одном сценарии (например, «сервер не загружается») и сразу поправьте SLA и runbook, пока все помнят детали.
Что закрепить в SLA, чтобы он работал в реальности
SLA часто выглядит аккуратно на бумаге, но ломается на первом же серьезном инциденте, когда непонятно: кто стартует отсчет, что считать восстановлением и когда честно ставить паузу. Для совместного реагирования на инциденты по оборудованию важнее всего убрать двусмысленности и привязать метрики к реальным действиям.
Метрики, которые действительно помогают
По железу одного «времени реакции» мало. Обычно работают три метрики:
- время реакции: ответственная сторона подтвердила инцидент и назначила исполнителя
- время восстановления: сервис вернулся к согласованному уровню (пусть даже временно)
- время обходного решения: появился безопасный способ продолжать работу до замены или ремонта
Заранее определите, что считается началом отсчета: регистрация в сервис-деске, автоматический алерт мониторинга или звонок дежурному. И отдельно - что считается «восстановлением» для каждого типа инцидента (например, для сервера в кластере это может быть восстановление общей мощности кластера, а не конкретного узла).
Приоритеты и паузы таймера
Приоритеты P1-P4 привязывайте к влиянию на бизнес, а не к громкости запроса. Зафиксируйте признаки (критичность сервиса, число пользователей, регуляторные сроки) и каналы, через которые разрешено объявлять P1.
Пропишите правила остановки таймера, иначе SLA превращается в спор. Типовые причины паузы:
- ожидание доступа на площадку или учетных данных, которые обязан дать заказчик
- ожидание запчасти, если она не на согласованном складе
- ожидание решения CAB, если требуется изменение в продуктиве
Отдельно опишите on-site: время выезда, часы допуска, требования к пропускам, список площадок и географию. Если у производителя есть 24/7 поддержка и сервисная сеть по стране, это стоит отразить в SLA вместе с условиями доступа и перечнем поддерживаемых работ.
Про запчасти нужны конкретные ответы: где хранится склад (у заказчика, интегратора, производителя), кто отвечает за условия хранения и инвентаризацию, какие сроки поставки считаются нормой.
И не забудьте ограничения: форс-мажор, работы только в согласованные окна, нештатные модификации железа или прошивок, а также случаи, когда гарантия не действует. Это неприятные пункты, но именно они делают SLA применимым, а не декоративным.
Runbook: как описать действия так, чтобы их повторили
Runbook нужен, чтобы любое дежурство действовало одинаково, а не «по памяти». Для совместного реагирования на инциденты он дает главное: единый порядок шагов и понятные условия эскалации.
Минимальная структура
Держите runbook коротким и прикладным, чтобы его реально открывали в 3 часа ночи:
- контакты и каналы связи: заказчик, интегратор, производитель, плюс резервные контакты
- роли по уровням L1-L3: кто принимает обращение, кто диагностирует, кто принимает решение о замене и выезде
- пошаговые действия: что проверяем в первую очередь и в каком порядке, с ожидаемым результатом
- типовые решения: перезагрузка, переключение на резерв, замена блока, временные обходные меры
- шаблоны согласований и документов: простои, выезды, RMA, закрытие работ
Чтобы L2 и L3 не тратили время на «сбор базового», заранее пропишите, какие данные обязан собрать L1:
- фото индикации на панели (LED), экрана ошибок, состояния кабелей и портов
- точный текст сообщений и коды ошибок
- модель, серийный и инвентарный номер, точное место установки (стойка, юнит, помещение)
- логи и диагностика, доступные на L1 (например, выгрузка отчета контроллера)
- таймлайн: когда началось, что меняли до инцидента, что уже пробовали
Критерии передачи на L2 и L3 лучше делать бинарными: «питание и кабели проверены, фото и коды собраны, логи приложены» - значит, можно эскалировать. Для L3 добавьте правило: эскалация после подтверждения симптомов и согласования простоя, если вероятна замена.
Храните runbook в одном месте с версионностью: номер версии, владелец, дата ревизии и короткий список изменений. Ревизию делайте по расписанию (например, раз в квартал) и после каждого крупного инцидента.
Доступы, данные и коммуникации без лишних рисков
Половина задержек в инцидентах по оборудованию случается не из-за сложности поломки, а из-за того, что «нет нужного доступа», «логи не согласованы», «непонятно, кто может подключаться». Это лечится заранее: минимально достаточные доступы, понятные правила фиксации действий и единый формат тикета.
Доступы: минимум, который экономит часы
Заранее определите, какие доступы нужны на каждом уровне и у кого они будут храниться. Обычно L1 достаточно мониторинга и базовой CMDB (что за устройство, где стоит, серийный номер, гарантия, контакты). L2 часто нужен доступ к гипервизору и системным журналам, чтобы отделить «железо» от «ПО». L3 (производитель) почти всегда просит удаленную консоль или out-of-band управление для диагностики без участия ОС.
Сразу решите, кто выдает временный доступ, а кто подтверждает постоянный. Практичный вариант - доступ только по заявке на инцидент, с ограничением по времени.
Безопасность и фиксация действий
Пропишите правило: удаленно подключается только назначенная роль (например, инженер интегратора или производителя), а заказчик подтверждает окно работ и критичные изменения. Все действия должны фиксироваться: сессии удаленной консоли, команды, изменения настроек, замены деталей. Это защищает всех сторон, особенно в спорных ситуациях.
Единый тикетинг и обмен данными
Производитель начинает работу быстрее, если тикет заполнен одинаково каждый раз. Обязательные поля: критичность (P1-P3), симптомы, время начала, что уже сделано на L1-L2, конфигурация (модель, серийный номер, версии прошивок), окружение (стойка, питание, сеть), приложенные логи и фото индикации, контакты дежурных.
Для передачи логов и конфиденциальных данных договоритесь заранее: какие логи можно отдавать, как их обезличивать, кто снимает и кто проверяет перед отправкой. Если требования строгие, полезно иметь «минимальный набор» и отдельный процесс для расширенного набора по согласованию.
Коммуникации при P1
При P1 нужна одна точка правды: один чат или звонок с фиксированным составом участников и ведущим (обычно L2 у интегратора). Согласуйте частоту статусов (например, каждые 15-30 минут) и список действий, которые можно делать только после подтверждения: перезагрузка, вывод из кластера, замена узла, выезд инженера.
Пример сценария: отказ сервера и эскалация от L1 до L3
Ночь, 02:10. Критичный сервис (например, медицинская регистратура или платежный шлюз) недоступен. В стойке в ЦОД перестал отвечать rack-сервер, на котором работает база данных. Дежурная смена видит алерт, пользователи уже звонят в поддержку.
Первые 30 минут: L1 у заказчика
Задача L1 - подтвердить факт, собрать минимум данных и не терять время на догадки. За 15-30 минут оператор фиксирует время начала и список затронутых сервисов, затем делает простые проверки: питание, индикация на панели, доступность по сети, последние изменения, ошибки в консоли управления и в мониторинге.
В тикете L1 оставляет только проверяемые факты:
- что именно не работает и для кого (сервис, число пользователей, критичность)
- что уже проверили (консоль, индикация, журнал событий)
- текущий статус (полный простой или деградация, есть ли обход)
- контакт дежурного и доступность площадки
Локализация и координация: L2 у интегратора
Интегратор на L2 локализует проблему на уровне инфраструктуры: исключает сеть и СХД, проверяет кластер, ищет корреляцию алертов, предлагает безопасный обход (фейловер на резервный узел, переключение на реплику, запуск сервиса на запасном сервере). Он же ведет коммуникации и фиксирует план следующего шага с временем.
Подтверждение дефекта и замена: L3 у производителя
Если признаки указывают на железо (ошибки RAID, память, плата, питание), L2 эскалирует на L3 производителю. На L3 подтверждают аппаратный дефект по диагностике, определяют FRU (какую часть менять) и запускают ремонт или замену по условиям SLA.
Инцидент заканчивается восстановлением сервиса и коротким разбором: что было причиной, сколько заняли этапы L1-L3, где потеряли время. После этого обновляют runbook (какие скриншоты, команды, логи собирать) и уточняют SLA.
Частые ошибки и как их избежать
Самая частая проблема звучит так: SLA подписан, но runbook не написан. Все знают, какие времена реакции «должны быть», но в момент инцидента непонятно, кто делает первый шаг, что именно проверять и какие данные нужны для эскалации.
Вторая ошибка - нет единой точки входа. Заказчик пишет в сервис-деск, интегратору в чат, а производителю по почте. Три параллельных обращения создают три версии правды, и время уходит на сверку, а не на восстановление.
Третья - не определены старт и стоп таймера. Если не зафиксировать, когда начинается отсчет (регистрация, подтверждение, получение минимальных данных) и что считать восстановлением (обход или полный ремонт), будут споры вместо работы.
Технически больнее всего, когда L1 не собирает факты. Тогда L2 и L3 тратят часы на повтор базовых проверок: серийник, логи, состояние питания, ошибки контроллера, что уже меняли на площадке.
И еще одна практичная вещь, о которую часто «ломается» SLA: запчасти и логистика не учтены, а доступы на площадку и сопровождение не согласованы. На режимных объектах без заранее оформленного пропуска инженер может просто не попасть к стойке.
Чек-лист и следующие шаги для внедрения
Перед запуском совместного реагирования на инциденты по оборудованию проверьте базовые договоренности:
- роли L1-L3 и RACI: кто принимает обращение, кто диагностирует, кто меняет железо, кто принимает решение о замене
- приоритеты P1-P4: что считается P1 и кто имеет право повышать приоритет
- единая точка входа 24/7: канал, телефоны, резервные контакты, правила связи в нерабочее время
- эскалация: критерии передачи на L2 и L3, максимальное время на попытку восстановления на каждом уровне
- данные для старта: инвентарь, серийные номера, гарантийный статус, доступы и окна работ
Дальше проверьте документы «на земле». В SLA важно явно описать, когда стартует и останавливается таймер, что входит в on-site, кто и где держит ЗИП, какие есть исключения и как выглядит отчетность (например, разбор P1 и ежемесячные отчеты).
Runbook держите коротким и проверяемым: шаги L1 с проверками, условия передачи на следующий уровень, шаблон тикета и отчета, версия документа и владелец, который обновляет его после серьезных инцидентов.
Если вы хотите закрыть цепочку «производитель плюс интегратор» в одном контуре, это тоже можно формализовать: например, в проектах с GSE.kz (gse.kz) часто удобно, что один подрядчик может и поставить оборудование, и взять на себя системную интеграцию и поддержку с понятными ролями L1-L3 и процессом RMA.
FAQ
Что делать в первые минуты аппаратного инцидента, чтобы не потерять время?
Начните с фиксации проверяемых фактов: что именно не работает, с какого времени и как это влияет на сервис. Затем сделайте безопасные базовые проверки, которые не ухудшат ситуацию, и сразу заведите один тикет, чтобы вся история и решения были в одном месте.
Какие данные собрать для эскалации по железу, чтобы производитель быстро включился?
Минимум, который почти всегда нужен: модель устройства, серийный и инвентарный номер, точное место установки, симптомы и время начала, а также выгрузки журналов из контроллера/управления (BMC), если они доступны. Если приложить эти данные сразу, L2/L3 не будут повторять первичную диагностику и быстрее подтвердят дальнейшие шаги.
Кто должен быть владельцем инцидента и зачем он нужен?
Назначьте одного владельца инцидента (incident owner), который ведет таймлайн, принимает решение об эскалации и согласует временные меры восстановления. На практике это часто интегратор как единая точка входа, но владелец должен иметь полномочия собирать факты и договариваться о простое и доступах.
Чем отличается инцидент от запроса, проблемы и изменения в контексте железа?
Если говорить простыми словами, инцидент — это когда сломалось или стало хуже и мешает работе, запрос — когда нужно сделать плановое действие без поломки, проблема — когда ищут повторяющуюся причину серии инцидентов, а изменение — когда планово меняют инфраструктуру с риском влияния на сервис. Когда термины закреплены, проще мерить SLA и понимать, кто и когда подключается.
Как правильно распределить L1–L3, чтобы не было «перекидывания» задач?
Описывайте уровни не «по должностям», а по действиям: L1 фиксирует симптомы и собирает базовые данные, L2 локализует и выполняет безопасные стандартные действия, L3 подключается для редких аппаратных случаев, прошивок и гарантийных процедур. Такой подход уменьшает спор «это не мой уровень» и ускоряет передачу ответственности.
Когда нужно сразу подключать производителя (L3), а не пытаться решить на L1–L2?
Эскалируйте в производителя, когда нужны подтверждение дефекта, гарантийная замена или экспертиза по аппаратным ошибкам и совместимости. Если уже есть признаки аппаратного отказа или риск потери данных, лучше уходить выше сразу, а не тратить часы на попытки «починить на месте» без нужных инструментов.
Как прописать в SLA старт/стоп таймера и «восстановление», чтобы не спорить при P1?
Зафиксируйте, что считается стартом отсчета (например, регистрация тикета или подтверждение ответственным), и что считается восстановлением (временный обход или полное возвращение к норме — отдельно для разных сценариев). Обязательно пропишите условия паузы таймера, иначе в реальном инциденте SLA превращается в спор, а не в инструмент управления.
Как организовать доступы и безопасность, чтобы не тормозить диагностику и не рисковать?
Заранее договоритесь о минимально достаточных доступах для каждой роли и о том, кто выдает временный доступ на время инцидента. Введите правило фиксации действий: кто подключался, что менял, в какое окно, чтобы безопасность и эксплуатация не блокировали друг друга из-за отсутствия прозрачности.
Как договориться про ЗИП и RMA, чтобы замена детали не растягивалась на полдня?
Определите, где хранится ЗИП, кто отвечает за его учет и условия хранения, и какие сроки доставки считаются нормой для критичных узлов. Для гарантийных замен согласуйте, кто инициирует RMA и какие артефакты обязательны, чтобы замена не «встала» из-за отсутствия серийного номера или логов.
Что обязательно должно быть в runbook по аппаратным инцидентам, чтобы его реально использовали ночью?
Runbook должен быть коротким и проверяемым: что делать на L1 шаг за шагом, когда и по каким признакам эскалировать, и какой шаблон тикета заполнять. Обновляйте его после крупных инцидентов, иначе документ быстро расходится с реальностью и перестает помогать дежурным.