Зачем логи и аудит нужны именно для разбора инцидентов

Без логов расследование быстро превращается в спор мнений: кто-то уверен, что виноват пользователь, кто-то - сеть, а времени на проверку нет. Журналы дают опору на факты и помогают восстановить цепочку событий так же уверенно, как записи камер, только в цифровом виде.

Хороший журнал отвечает на простые вопросы: кто сделал действие, что произошло, где это было, когда и чем закончилось (успех, отказ, ошибка). Если хотя бы одного элемента не хватает, картинка разваливается.

Важно различать три слоя данных:

Оперативные логи показывают состояние систем и ошибки здесь и сейчас.
Аудит фиксирует значимые действия и изменения (входы, права, админские операции) и особенно важен для разборов и требований соответствия.
Телеметрия описывает поведение (например, необычные запуски и сетевые связи) и помогает находить скрытые атаки.

В разборе почти всегда участвуют несколько команд. ИБ формулирует гипотезы и признаки атаки, ИТ и админы проверяют инфраструктуру, сервис-деск собирает факты от пользователей, владелец бизнеса уточняет, что могло быть затронуто. Например, при подозрительном входе в бухгалтерскую систему обычно нужны журналы аутентификации, аудит доступа к папкам и события из почты.

Успех измеряется не количеством логов, а временем и повторяемостью:

MTTD: сколько прошло до обнаружения.
MTTR: сколько заняли подтверждение и разбор.
Полнота: хватает ли данных, чтобы уверенно сказать, что произошло.
Повторяемость: можно ли тем же способом разбирать следующий инцидент.

Если эти показатели улучшаются, значит сбор и корреляция действительно работают, а расследования занимают часы, а не недели.

Что логировать: минимальный набор по источникам

Даже «обязательный минимум» заметно ускоряет разборы. Цель простая: по журналам восстановить цепочку действий от первого входа до доступа к данным. В первую очередь нужно видеть, кто вошел, откуда, что изменил и к каким ресурсам обращался.

Начните с аутентификации и управления доступом. Нужны успешные и неуспешные входы, MFA (запрос, успех, отказ), блокировки учетных записей, сбросы пароля, изменения ролей и членства в группах. Обязательно фиксируйте идентификатор пользователя, источник (IP, устройство), метод входа и причину отказа.

По сети часто «всплывает» то, что не видно на хосте. Полезны DNS (какие домены запрашивали), прокси или веб-шлюз (какие ресурсы открывали), VPN (подключения и выдача адресов), межсетевые экраны (разрешено/запрещено). Если есть NetFlow или аналог, он помогает быстро понять, куда и сколько данных уходило, даже без расшифровки трафика.

На конечных устройствах собирайте системные события ОС и безопасности, установку и удаление ПО, подключение внешних носителей, а также события EDR/антивируса (детекты, карантин, исключения). Если доступно, добавьте запуск процессов. Отдельно ценны логи важных пользовательских приложений, например VPN-клиента или криптопровайдера.

Почта и инструменты совместной работы часто становятся точкой входа. Нужны факты входов в ящик, открытия вложений и скачиваний, отправки и пересылки, а также создание правил (особенно авто-пересылки).

Для критичных систем (БД, ERP/CRM, файловые хранилища) фиксируйте аутентификацию, доступ к чувствительным таблицам и папкам, массовые выгрузки, изменения прав и админские операции.

Чтобы не утонуть в объеме, проверьте минимум по каждому источнику: кто совершил действие, когда, откуда, что именно произошло и к чему был доступ.

Пример: сотрудник «внезапно» вошел ночью через VPN. По связке VPN + вход в почту + создание правила пересылки + массовое чтение файлов на шару вы за часы увидите всю картину, даже если на ПК уже все «почистили».

Время и формат: чтобы события совпадали в одной линии

В расследовании важнее всего быстро собрать точную временную линию. Если на одном сервере время спешит на 3 минуты, на рабочей станции стоит другой часовой пояс, а в облаке лог пишется в UTC без явной метки, корреляция превращается в угадайку.

Первое правило - единая синхронизация времени. Настройте NTP на всех узлах: серверы, рабочие станции, сетевое оборудование, гипервизоры, системы безопасности. Проверьте, что синхронизация не просто включена, а реально работает (нет блокировок по сети и корректны источники времени).

Время храните без двусмысленности. Практичный вариант: фиксировать время события в UTC и отдельно хранить часовой пояс системы (или смещение), чтобы при необходимости восстановить локальный контекст. Там, где возможно, добавляйте миллисекунды: при переборе паролей и массовых запросах разница в секунду уже критична.

Чтобы события из разных источников складывались в одну линию, заранее договоритесь о базовых полях:

timestamp (UTC и точность)
user (логин, UPN, SID или другой стабильный идентификатор)
host (имя и роль, например workstation или server)
src_ip (источник) и, если есть, dst_ip (назначение)
action и result (что сделали и чем закончилось)

Дальше включайте нормализацию. Одно и то же действие должно называться одинаково, даже если разные системы пишут по-разному. Например, Windows пишет "Logon", VPN - "Authentication", а приложение - "Sign-in". В хранилище это лучше сводить к одному типу события, чтобы правила корреляции не разрастались.

И еще один базовый риск - потери на пути. Чаще всего они происходят при пиках нагрузки или обрывах связи. Помогают локальный буфер на агентах, повторная отправка при ошибках, контроль очередей и отставания, а также приоритет для критичных логов. Регулярно смотрите контрольные метрики: сколько событий пришло и сколько было отброшено.

Где хранить логи: практичные варианты размещения

Проблема обычно не в том, что событий нет, а в том, что они разбросаны по серверам и рабочим станциям, и часть уже перезаписана. Для расследований почти всегда нужен централизованный сбор: один источник правды, единые правила доступа и понятная ретенция.

Самый практичный старт - выделенный сервер (или пара серверов) под сборщик и хранилище в защищенном сегменте сети. В идеале это зона, куда отправляют события многие системы, но откуда нельзя «тихо» удалять или править записи обычным администраторам.

Он-прем, гибрид или отдельно в облаке

Он-прем оправдан, если есть требования хранить данные внутри организации или важно держать полный контроль над доступом. Гибрид часто удобнее: «горячие» логи (последние дни) хранятся локально для быстрых поисков, а архив уходит во второе хранилище с более дешевой емкостью. Полностью в облаке имеет смысл, когда нет команды для поддержки железа и нужно быстро масштабироваться, но ограничения по данным и доступам стоит проверить заранее.

Производительность и устойчивость

Мощность лучше считать не от «сколько терабайт купить», а от потока: сколько источников, как часто они пишут события, каков средний размер записи и какая нужна ретенция. Добавьте запас на пики во время инцидента.

Чтобы сбой коллектора не обнулил расследование, продумайте минимум: буферизацию на источниках, резервный узел приема, отдельное хранилище для архива, регулярную проверку доставки и чтения логов, а также ограничение админ-доступа к хранилищу и журнал действий с ним.

Сроки хранения, доступ и защита от подделки

Если логи пропали или им нельзя доверять, расследование превращается в догадки. Поэтому важно заранее определить, сколько хранить разные типы журналов, кто имеет доступ и как исключить подмену.

Ретенцию удобно задавать в трех горизонтах. Короткая - для быстрых разборов (детальные логи приложений и сетевые события). Средняя - когда инцидент заметили не сразу (аудит ОС, AD, почта, VPN). Длинная - для редких, но тяжелых случаев и проверок (критичные журналы безопасности, изменения прав, ключевые бизнес-системы). Частая ошибка - хранить все одинаково долго: дорого и мало полезно.

Неизменяемость логов критична. Если атакующий получил админ-доступ, он часто начинает с попытки «почистить» следы. Минимальный набор мер:

запись в централизованное хранилище с запретом удаления и перезаписи (WORM/immutable-политики)
отдельная учетная запись для приема логов без прав на их чтение
контроль целостности (хэши, подпись, регулярная сверка)
резервное копирование журналов по расписанию, отдельно от основной системы

Доступ разделяйте по ролям: одни читают и расследуют, другие меняют настройки сбора, третьи администрируют хранение. Никто не должен совмещать все права сразу. Для организаций с повышенными требованиями (госорганы, финансы, здравоохранение) это часто обязательное условие внутреннего контроля.

Шифрование важно не только «в хранилище», но и в пути, а также в управлении ключами. Закрепите в процессах, где лежат ключи, кто их меняет, как проходит отзыв доступа при увольнении и что делать при подозрении на компрометацию.

Правила ретенции и доступа фиксируйте письменно: в политике ИБ или регламенте эксплуатации. Там же укажите сроки, ответственных, порядок выдачи доступа и формат выгрузок для расследований.

Как настроить сбор логов: пошаговый план на 2-4 недели

Серверы S200 Series для SOC

Предложим серверы S200 Series под ваши требования по CPU, дискам и сетям.

Подобрать сервер

Чтобы журналы реально помогали, важнее всего не «поставить сборщик», а договориться об источниках, ответственности и проверках. Ниже - план, который обычно укладывается в 2-4 недели даже в разнородной инфраструктуре.

План работ по неделям

Неделя 1. Составьте список систем, которые почти всегда участвуют в инцидентах: AD/IAM, почта, VPN, межсетевые экраны, серверы, критичные приложения. Назначьте владельца на каждый источник: кто включает аудит, кто меняет настройки, кто подтверждает, что данные корректны.

Неделя 2. Включите нужные политики аудита и уровни логирования. Начните с обязательного минимума: входы, ошибки доступа, изменения прав, создание новых учеток, действия администраторов. Так вы получите пользу без лавины шума.

Неделя 3. Настройте отправку в центральное хранилище. Где возможно, используйте агент (обычно это надежнее), где нет - syslog. Зафиксируйте формат полей (время, хост, пользователь, IP, событие) и единый часовой пояс.

Неделя 4. Проведите тестовый период и подготовьте регламент реагирования. Для систем с повышенными требованиями сразу добавьте защиту от изменения логов и раздельный доступ.

Перед тем как считать работу завершенной, сделайте проверку качества на реальном сценарии: один сотрудник входит в VPN, меняет пароль, получает отказ в доступе, администратор создает тестовую учетную запись. По этим действиям вы должны увидеть сквозную цепочку событий за минуты.

Закрепите процесс в одном документе: кто смотрит алерты, как быстро отвечает, куда эскалирует и что считается инцидентом.

Корреляция событий и алерты: что настроить в первую очередь

Корреляция нужна, чтобы из десятков разрозненных записей получить понятную историю: кто, где и что сделал. Если централизованный сбор уже есть, следующий шаг - простые правила, которые ловят частые атаки и ошибки без тонны ложных срабатываний.

Начните с корреляций, которые почти всегда полезны и легко объясняются бизнесу:

множественные неудачные входы с одного адреса или по одной учетке
успешный вход после серии неудачных, особенно если дальше идет доступ к почте или файлам
вход с нового устройства или из нетипичного места для конкретного пользователя
повышение привилегий (добавление в админ-группы, выдача прав на критичные системы)
отключение защиты или очистка журналов на рабочей станции или сервере

Дальше переходите к «цепочкам». Пример: сотрудник открыл письмо, затем запустился вложенный файл, после этого появился новый сетевой процесс и начались обращения к файловому ресурсу с чувствительными данными. По отдельности такие события могут выглядеть нормально, но вместе дают ясный сигнал.

Чтобы алерты были точнее, добавьте обогащение: справочник активов (что за сервер и где стоит), критичность систем, список админских учеток, принадлежность устройства отделу. Одно и то же событие на бухгалтерском ПК и на тестовой машине должно иметь разный приоритет.

Пороговые значения настраивайте постепенно. Сначала ставьте мягкие пороги и собирайте статистику 1-2 недели, затем ужесточайте. Если алертов слишком много, снижайте шум исключениями (известные сканеры, админские серверы, окна обслуживания), а не отключением правил.

Когда срабатывает правило, алерт должен сразу нести контекст: кто и где, что именно сработало, цепочку ключевых событий до и после (примерно 5-20 строк), важность актива и владельцев системы, а также понятное первое действие (проверить MFA, сбросить пароль, изолировать хост).

Как проводить разбор: простой алгоритм расследования

Сервер под хранилище логов

Подберем серверы под ваш поток логов, ретенцию и пики во время инцидентов.

Запросить расчет

Разбор проще всего делать как последовательную проверку фактов. Цель - быстро понять, что произошло, когда началось, что затронуто и какие данные подтверждают выводы.

Сначала соберите «якорные» поля, по которым вы будете склеивать события: пользователь (логин, UPN, почта), устройство (hostname, ID агента), IP и география, процесс (имя, путь, командная строка), URL или домен, а если есть - хеш файла. Эти поля удобно выписать в заметку и дополнять по ходу.

Алгоритм на 60-90 минут

Дальше двигайтесь по одному маршруту:

зафиксируйте первый признак (алерт, жалоба, аномалия) и точное время с часовым поясом
постройте таймлайн: события до и после, пока не увидите последнее действие атакующего или момент блокировки
сравните с «нормой» пользователя и устройства (обычные часы входа, привычные IP, стандартные приложения)
выделите подтвержденные факты и отметьте, где данных не хватает
сохраните артефакты: события, скриншоты, хеши, список затронутых учеток и устройств

Пример: вы видите подозрительный вход в почту сотрудника ночью. В таймлайне находите письмо со ссылкой, переход на URL, вход с нового IP, создание правила пересылки, скачивание вложений. «Норма» показывает, что сотрудник обычно работает днем и из другого города.

Что фиксировать в итогах

В итогах разделяйте факты и гипотезы. Факты подкрепляйте конкретными полями (время, пользователь, IP, действие). Отдельно запишите пробелы: какие журналы отсутствуют и что это помешало доказать. Если возможны юридические вопросы, заранее подготовьте пакет: таймлайн, перечень артефактов, кто и когда выгружал логи и где они хранились без изменений.

Пример инцидента: фишинг, подозрительный вход и утечка данных

Сотрудник получил письмо со «счетом» и открыл вложение. Через 10-15 минут в почту этой же учетной записи зашли с нового устройства, а затем кто-то начал просматривать и скачивать файлы из корпоративного хранилища. Через час коллеги заметили странные письма, отправленные «от имени сотрудника».

Чтобы такие случаи разбирались быстро, важно, чтобы события из разных источников складывались в одну временную линию. Здесь обычно решают четыре группы данных: почта, прокси и DNS, события на рабочем ПК, а также журналы входов и доступов к файлам.

Как подтверждают компрометацию

Картина становится ясной, когда совпадают несколько сигналов:

почта: открытие вложения или переход по ссылке, затем создание правила пересылки или изменение настроек
DNS/прокси: обращение к домену из письма и последующие соединения с редкими внешними адресами
ПК: запуск процесса из папки загрузок, появление нового задания планировщика или необычная активность PowerShell
входы: успешная аутентификация из нетипичного места, с нового устройства или в необычное время

Как сузить круг и сделать выводы

Сужайте расследование по четырем осям: время (первые минуты после открытия), узел (конкретный ПК), учетная запись (кто вошел и откуда), объекты доступа (какие файлы читали и скачивали). Если не хватает данных, это тоже результат: часто отсутствуют логи DNS, аудит доступа к файлам или отметки об изменениях в почтовых правилах. Добавьте эти источники, настройте единый часовой пояс и сохранение сырых событий, и похожий инцидент в следующий раз займет часы, а не недели.

Частые ошибки и ловушки при логировании

Самая частая проблема - вы тратите деньги, но не получаете ответа на главный вопрос: что произошло и когда. Ошибки обычно простые и повторяются из проекта в проект.

Первая ловушка - собирать слишком много без цели. Когда в систему летит все подряд, важные события тонут в шуме, а расходы на хранение и обработку растут. Заранее определите, какие типы событий нужны для расследований (входы, изменения прав, запуск админских утилит, доступ к данным), и отфильтруйте остальное.

Обратная крайность - слишком мало логов или «бедные» события. Вроде бы записи есть, но нет ключевых полей: кто, откуда, что именно, результат и к чему относится действие. Тогда расследование превращается в догадки из-за отсутствия контекста.

Третья ловушка - плохая синхронизация времени (NTP). Если на разных серверах время разъехалось хотя бы на пару минут, цепочка атаки не складывается: сложно уверенно связать письмо, запуск файла, вход и доступ к ресурсу.

Четвертая ошибка - хранить логи там же, где может случиться инцидент. Получив доступ к серверу, злоумышленник часто пытается удалить журналы первым делом. Критичные логи нужно отправлять в отдельное хранилище или контур с ограниченным доступом.

Еще одна типовая проблема - нет ответственных. Алерты настроены, но непонятно, кто их смотрит, кто подтверждает инцидент, кто собирает доказательства и какие сроки реакции. Минимум, который стоит закрепить: владелец каждого источника логов, дежурный по алертам и порядок эскалации.

Короткий чеклист готовности к расследованиям

Резервирование и устойчивость логов

Спроектируем отказоустойчивый контур хранения, чтобы логи не терялись на нагрузке.

Оставить заявку

Когда случается инцидент, время часто уходит не на поиск атаки, а на попытки понять, где вообще есть следы. Этот чеклист помогает быстро оценить готовность.

Покрытие источников. События стабильно приходят со всех критичных систем: контроллеры домена и IAM, почта, VPN, EDR/антивирус, сетевые устройства (фаервол, прокси), серверы приложений, базы данных, облачные сервисы (если они есть). Если инфраструктура локальная, проверьте, что сбор не «обрывается» после обновлений и смены агентов.

Качество времени и связность. Временные метки совпадают (синхронизация, единый подход к часовым поясам), у событий есть идентификаторы для склейки: пользователь, хост, IP, ID сессии или запроса.

Поиск и доступ. Следователь за минуту находит «кто, откуда, куда и когда»: есть поиск по пользователю, IP, хосту и диапазону времени; результаты быстро сужаются фильтрами; доступ к логам выдан заранее, а не «в момент пожара».

Хранение и ретенция. Понятны сроки по типам логов, хватает места, есть предупреждения о заполнении. Критичные журналы защищены от подделки и удаления хотя бы через ограничение прав и контроль изменений.

Корреляции и эскалация. Есть 5-10 рабочих правил с понятными алертами и ясный маршрут: кто смотрит, в какие сроки, кому передает дальше.

Следующие шаги: как закрепить процесс и поддерживать инфраструктуру

Рабочий контур логирования - это процесс, а не разовый проект. Надежный путь - начать с пилота на 1-2 критичных сервисах, где цена простоя выше всего (например, почта и VPN, или домен и файловый сервер). На пилоте быстро видно, каких событий не хватает, где ломается сбор и как выглядит «нормальная» цепочка расследования.

Дальше закрепите правила в регламенте: не только что собирать, но и кто за это отвечает. Иначе аудит будет включаться от случая к случаю.

Минимальный регламент, который экономит время

В документе должны быть ответы на пять вопросов:

кто включает и проверяет аудит на источниках
кто отвечает за хранение, ретенцию и резервные копии
кто и как получает доступ к логам (роли, заявки, сроки)
что считается инцидентом и когда поднимается приоритет
как часто проверяется, что сбор работает (ежедневно или еженедельно)

Параллельно планируйте рост. Объем событий почти всегда увеличивается после пилота, поэтому заранее заложите запас по дискам и CPU, а также резервирование, чтобы хранилище логов не стало единственной точкой отказа.

Если вы строите или обновляете локальную инфраструктуру под сбор и анализ событий, иногда проще опереться на готовые серверные платформы и интеграцию. Например, GSE.kz (gse.kz) как производитель и системный интегратор в Казахстане поставляет серверы S200 Series и помогает с проектированием и поддержкой ИТ-контуров, включая режим 24/7.

Отдельно договоритесь о поддержке самого контура логирования. Типичная ситуация: сбор настроили, через месяц агент перестал отправлять события, и на расследовании снова пустота. Когда есть ответственные, регулярная проверка и понятный канал эскалации, разборы начинают занимать часы, а не недели.