Архив корпоративной почты on-prem: индексация и ретеншн
Архив корпоративной почты on-prem: требования к индексации, ретеншну и правам доступа, чтобы поиск и юридические запросы работали предсказуемо.

Зачем заранее фиксировать требования, а не "как получится"
Архив корпоративной почты on-prem, запущенный без четких правил, сначала выглядит рабочим. Проблемы всплывают позже - при проверке, внутреннем расследовании или юридическом запросе. И тогда оказывается, что "архив есть", а предсказуемого результата нет.
Самая частая боль - поиск. Два сотрудника вводят один и тот же запрос и получают разные результаты. Причины обычно простые: у одного есть права видеть вложения, у другого нет; где-то индексируются только темы и отправители; часть писем попала в архив с задержкой; у некоторых ящиков разные правила обработки. Если требования не описаны заранее, вы не сможете внятно объяснить, почему так произошло, и быстро исправить.
Вторая проблема - сроки хранения. Если письма удаляются раньше установленного срока (из почтового ящика или уже из архива), теряются доказательства и контекст. Даже если "все важное" обычно сохраняют, один авто-скрипт очистки или изменение политики может оставить дыру в переписке за нужный период.
Отдельный риск - права доступа. Юристы или служба безопасности могут иметь право искать, но не просматривать содержимое, или наоборот. В итоге запрос срывается: выгрузку может сделать только администратор, а администратор не должен видеть данные.
Особенно уязвимы ручные выгрузки из почтового ящика. У них почти всегда разные параметры (папки, диапазон дат, вложения), сложно доказать полноту и неизменность, легко пропустить цепочки писем или скрытые вложения. Результат зависит от исполнителя и его прав.
Надежнее заранее договориться и зафиксировать: что индексируется, какие сроки хранения действуют, кто и как делает поиск и выгрузки, и как это подтверждается аудитом. Тогда любой запрос обрабатывается одинаково, независимо от людей и смен.
Что именно вы архивируете: состав данных и границы
Архив корпоративной почты on-prem чаще "ломается" не на железе, а на споре о том, что считается письмом и откуда оно берется. Поэтому сначала фиксируют состав объектов архива, и только потом обсуждают индексацию и сроки хранения.
Чтобы поиск и юридические запросы были предсказуемыми, обычно нужен минимум:
- тело письма (включая HTML и plain text версии, если они отличаются)
- вложения как отдельные файлы плюс связь "какое вложение в каком письме"
- заголовки и метаданные: From/To/Cc/Bcc, Message-ID, даты, тема, размер, язык, кодировки
- цепочки и связи (In-Reply-To/References), чтобы восстанавливать диалоги без догадок
Если для разбирательств важны действия с письмами, отдельно определите, храните ли вы служебные события (пересылка, ответ, изменение статуса, удаление, перемещение) и в каком виде.
Дальше определяют источники. Если архив снимает данные только с почтового сервера, вы можете потерять то, что прошло через шлюз (антивирус, антиспам, DLP) или было отклонено до доставки. Когда нужна доказуемость, заранее решите, будете ли вы подтягивать журналы шлюзов и транспортные логи как подтверждение факта отправки и маршрута.
Границы не менее важны, чем состав. Четко пропишите, что входит, а что нет: личные почтовые ящики, общие ящики и функциональные аккаунты, алиасы, внешние пересылки. Отдельно решите, как вы поступаете с мессенджерами и совместными чатами: либо это вне архива, либо нужен отдельный контур хранения и поиска.
Практический пример: в госорганизации общий ящик "tender@" ведут три сотрудника. Если архивируются только персональные ящики, переписка по тендеру станет "дырявой", и поиск eDiscovery даст неполную картину.
Требования к индексации: что должно находиться и как быстро
Индексация решает простую задачу: вы должны находить то, что реально хранится, и находить это одинаково каждый раз. Если индекс неполный или плохо работает с форматами, архив корпоративной почты on-prem превращается в склад, где ответы зависят от случая.
Сначала зафиксируйте, что именно индексируется. Обычно это:
- тело письма (текст и HTML)
- заголовки: From/To/Cc/Bcc, тема, Message-ID, дата, маршрутизация
- вложения (контент и имя файла)
- вложенные письма (например, .eml внутри письма)
Сразу снимите самый частый конфликт: "вложение есть, но не читается". Укажите поддерживаемые форматы (docx, xlsx, pdf, jpg) и правила для редких типов: пропускать, хранить без индекса или конвертировать. Для PDF и сканов отдельно решите, нужен ли OCR. Без него поиск по тексту в скане невозможен, и пользователи будут считать это ошибкой архива.
Для Казахстана почти всегда важны кириллица и смешанные языки (ru, kk, en). В требованиях стоит явно прописать поддержку UTF-8 и "старых" кодировок, корректный поиск по формам слов (хотя бы базовый), а также правила для казахских символов и транслитерации, если она встречается.
Нормализация тоже влияет на предсказуемость. Одно и то же письмо может появиться как оригинал, пересылка и копия в нескольких ящиках. Заранее решите, что делать с дубликатами: удалять по Message-ID и хэшу вложений или хранить все копии, но показывать сгруппированный результат.
И наконец - скорость. Запишите целевые показатели для типовых запросов (по отправителю, теме, фразе во вложении) и для типового объема (например, 1 месяц по 5 000 ящикам). Практичный ориентир: первые результаты за 3-10 секунд, а выгрузка большой выборки - с прогрессом и прогнозом времени, чтобы юридический запрос не зависал "навсегда".
Ретеншн и legal hold: правила хранения и исключения
Ретеншн задает понятное правило: сколько хранить и что удалять по истечении срока. В архиве корпоративной почты on-prem это критично, потому что пользователи часто уверены, что "в архиве все навсегда", а юристы ждут стабильных, повторяемых результатов.
Начните с разделения по типам данных. Переписка и вложения живут разной жизнью: письма чаще нужны для расследований, а вложения занимают основное место и нередко подпадают под отдельные требования (например, договоры или меддокументы). Отдельно опишите общие ящики и сервисные адреса (support@, procurement@): там выше риск, что удаление "по сроку" заденет процессы.
Политики редко бывают одинаковыми для всех. На практике различия обычно такие: разные сроки для подразделений (финансы, HR, продажи), отдельные правила для проектов и тендеров, более длинный срок для общих ящиков и руководства, исключения для регуляторных категорий (по внутреннему перечню), и четкий момент старта отсчета (дата отправки, получения или последнего изменения).
Legal hold нужен для "заморозки" без ручных обходов. Юридический запрос не должен продлевать ретеншн всем подряд. Он должен точечно блокировать удаление для выбранных людей, ящиков, периодов и тем. Важно, чтобы hold сохранял и письма, и вложения, а снятие hold возвращало объекты под обычные правила, не делая их "вечными" случайно.
Удаление по правилам должно быть управляемым: кто утверждает политики, кто имеет право запускать удаление, как фиксируется факт (лог, отчет, идентификаторы, время). Если политики конфликтуют (ретеншн истекает, но юристы требуют сохранить), приоритет у legal hold. Зафиксируйте порядок: кто ставит hold, в какой срок, как проверяется, что удаление остановлено, и кто подтверждает снятие hold после закрытия дела.
Права доступа: кто может искать, просматривать и выгружать
Права доступа в архиве лучше описать так же строго, как в почтовой системе. Иначе архив корпоративной почты on-prem превращается в место, где "все могут все", а результаты поиска и выгрузки сложно повторить и защитить.
Роли удобнее делить не по должностям, а по действиям. Поиск по метаданным и чтение содержимого письма - разные риски. Экспорт - самый чувствительный шаг, потому что данные легко вынести за пределы контролируемой среды.
Хорошая схема строится на принципе минимальных прав и разделении обязанностей, чтобы один человек не мог одновременно найти, прочитать и выгрузить переписку без контроля. Например:
- администратор поддерживает систему, но по умолчанию не читает письма
- ИБ настраивает политики доступа и проверяет аудит
- юристы формируют запросы, запускают поиск и готовят набор к выдаче
- HR работает только с кейсами сотрудников в пределах утвержденных оснований
- руководители получают итоговые отчеты или выборки, но не ищут сами
Отдельно пропишите правила для общих и делегированных ящиков. В почте делегат может читать "вместо" владельца, но в архиве это не всегда означает право читать исторические письма. Решите заранее: наследуются ли делегированные права, как учитываются смены владельцев общих ящиков, и кто утверждает доступ к архиву после увольнения сотрудника.
Для расследований и юридических запросов лучше выдавать временный доступ с четким сроком и основанием. Рабочий регламент обычно включает заявку с периодом и перечнем ящиков, назначение роли со сроком действия (с автоотзывом), двухэтапное подтверждение экспорта (например, юрист + ИБ), выдачу выгрузки в согласованном формате и закрытие кейса с проверкой аудита.
Чем точнее описаны права и ответственность, тем предсказуемее eDiscovery и тем меньше спорных ситуаций "кто смотрел" и "почему выгрузили именно это".
Аудит и доказуемость: чтобы результаты можно было защищать
Архив корпоративной почты on-prem часто внедряют ради предсказуемости. Но она заканчивается там, где нельзя доказать: кто искал, что именно нашел, и почему выгрузка не была изменена по пути к юристам или регулятору.
Первый слой - аудит действий. Логи должны фиксировать не только вход, но и шаги, которые влияют на результат запроса: параметры поиска (фильтры, диапазоны дат), просмотр письма и вложений, экспорт и его формат, изменения политик ретеншна, legal hold и прав доступа, а также админские операции с индексами и источниками данных.
Второй слой - неизменяемость. Заранее определите, какой уровень защиты нужен: запрет удаления, режим WORM-хранилища, раздельные роли для администраторов и офицера комплаенса, раздельное хранение ключей шифрования. Если администратор может тихо поправить письмо в архиве или подменить вложение, даже идеальный поиск не спасет.
Третий слой - цепочка хранения (chain of custody). Когда выгрузка уходит из архива, нужно уметь ответить: кто запросил, кто одобрил, кто сформировал, кто получил, где лежит копия, и как контролируется доступ к ней. Практично выдавать выгрузку как пакет с отчетом и проверками целостности.
Заранее договоритесь, какие артефакты храните вместе с выгрузкой. Обычно это контрольные суммы (для файлов и для всего пакета), отчет о запросе (критерии, время, количество найденного), журнал действий по делу с идентификаторами пользователей, а также версия политик и настроек, действовавших на момент поиска.
Простой пример: юрист просит переписку по контракту за 30 дней. Если через месяц возникнет спор, вы должны поднять не только сами письма, но и доказать, что они извлечены по конкретному запросу, в конкретное время, по действующим правилам, и что после экспорта пакет никто не менял.
Пошагово: как сформировать требования до внедрения
Начните не с выбора продукта, а с того, кто отвечает за правила. Для архива корпоративной почты on-prem владелец требований почти всегда коллективный: ИТ отвечает за работоспособность и интеграции, ИБ за доступы и риски, юристы за доказуемость и сроки, бизнес за практические сценарии. Назначьте одного координатора и договоритесь, кто утверждает финальную версию.
Соберите 5-10 типовых ситуаций, где архив действительно нужен: запрос суда, внутренняя проверка по инциденту, разбор конфликта в закупках, проверка соблюдения политик, HR-разбирательство. Описывайте не только "что ищем", но и "кто может запросить", "в какие сроки нужен результат" и "что считается приемлемой выдачей".
Минимальный набор требований, который стоит зафиксировать
Требования удобнее формулировать как короткий документ, который можно проверить на тесте:
- состав данных и границы: какие ящики, периоды, вложения, календарь, контакты, служебные журналы
- поля поиска и ожидаемое поведение: отправитель, получатель, период, тема, ключевые слова, наличие и тип вложений
- политики ретеншна и исключения: сколько хранить по типам данных и когда включается legal hold
- роли и регламент доступов: кто может искать, кто может просматривать письмо целиком, кто может выгружать, кто утверждает
- метрики качества: окно индексации, время ответа поиска на типовых запросах, полнота результатов
Тестовый прогон до покупки и до запуска
Возьмите реальную выборку (например, 2-4 недели переписки нескольких отделов) и прогоните сценарии. Пример: юрист запрашивает переписку по контрагенту за 30 дней с вложениями, а ИБ требует, чтобы доступ был выдан только на конкретное дело и полностью фиксировался в аудите.
Зафиксируйте цифры: сколько писем найдено, сколько пропущено, сколько заняло время, какие права требовались. Если результаты "плавают", возвращайтесь к требованиям и уточняйте правила до внедрения.
Частые ошибки, из-за которых поиск и запросы становятся непредсказуемыми
Даже хороший архив корпоративной почты on-prem начинает подводить, если требования не переведены в конкретные настройки и проверки. Обычно проблема всплывает не на пилоте, а когда приходит юридический запрос и сроки уже горят.
Ошибки, которые ломают ожидаемый результат
Непредсказуемость чаще всего появляется из-за деталей, которые никто не зафиксировал как обязательные:
- индекс строится не по всем типам вложений: PDF ищутся, а сканы, архивы или вложенные письма (.eml/.msg) нет
- время в письмах и журналах живет в разных часовых поясах, и фильтр "с 01 по 30" отсекает часть переписки
- права доступа настроены так, что поиск выполняется только по части источников, а система молча исключает некоторые базы или хранилища
- legal hold оформляют как письмо или задачу, но в архиве не появляется технической блокировки удаления
- выгрузки делают вручную "как получится": разные форматы, нет контрольных сумм и журнала действий
Небольшой пример из жизни
Юрист просит переписку по проекту за 30 дней и ожидает, что фильтр по датам и ключевым словам даст полный набор. Но часть писем уходит за границы периода из-за часового пояса, а важные договоры не находятся, потому что вложения-сканы не индексировались. Команда тратит время на ручной просмотр, а итоговый пакет документов получается спорным.
Чтобы избежать этого, заранее договоритесь о проверках: какие типы вложений обязаны индексироваться, какой часовой пояс считается "истиной", какие роли имеют право искать и экспортировать, и что именно меняется в системе при постановке на hold.
Короткий чеклист: что проверить перед запуском и регулярно
Перед запуском архива корпоративной почты on-prem договоритесь о проверках, которые будете повторять по расписанию. Это дешевле, чем разбираться в аврале, когда пришел юридический запрос и внезапно "ничего не находится".
Минимум проверок по индексации и поиску
Убедитесь, что поиск работает по тем данным, которые важны в реальных кейсах, а не только "по теме письма". Проверьте и зафиксируйте:
- какие поля реально индексируются (From/To/Cc/Bcc, тема, тело письма, дата, Message-ID, вложения)
- по каким полям разрешен поиск и как он интерпретируется (точное совпадение, часть слова, морфология, поиск по фразе)
- сколько времени проходит от попадания письма в ящик до появления в результатах (окно индексации)
- что происходит с проблемными объектами (зашифрованные вложения, вложенные архивы, нестандартные кодировки)
Хранение, legal hold и права
Дальше проверьте правила хранения и то, как они переживают кадровые и организационные изменения:
- ретеншн для ключевых ящиков и общих адресов: срок, событие начала отсчета, что считается удалением
- как включается legal hold: кто инициирует и утверждает, как быстро применяется, распространяется ли на вложения
- кто может искать, просматривать и выгружать: роли, принцип "минимально необходимого", разделение обязанностей
- экспорт: формат, маркировка результата, место хранения выгрузки и доступ к ней
- журнал действий: где хранится, что фиксируется (поиск, просмотр, экспорт, изменения политик), срок хранения
Часто пропускают тестовый кейс. Нужен короткий сценарий с понятным ожидаемым результатом (например, 10 писем с вложением PDF, 2 письма с одинаковой темой, одно удаленное), чтобы регулярно подтверждать, что поиск и правила работают предсказуемо.
Пример сценария: юридический запрос на переписку за 30 дней
Представим ситуацию: в компании пришел запрос от юристов подготовить переписку за последние 30 дней по спорному договору. Для архива корпоративной почты on-prem важно, чтобы результат был повторяемым: сегодня нашли одно, завтра тот же запрос дает то же самое.
Сначала юристы дают рамки, и их лучше фиксировать письменно:
- период: конкретные даты и часовой пояс
- участники: отправители, получатели, копия и скрытая копия
- ключевые слова и варианты написания (название проекта, номер договора)
- вложения: какие типы важны (PDF, сканы, таблицы) и нужны ли версии
- условия исключений: личная переписка, рассылки, автоуведомления
Дальше запрос сужают без потери смысла. Обычно начинают широко (период + участники), затем добавляют ключевые слова. Важно не потерять "косвенные" письма: ответы в цепочке без ключевого слова, пересылки, письма с вложением, где нужный текст внутри файла. Поэтому поиск проверяют на 3-5 контрольных писем, которые точно должны попасть в выдачу.
На время проверки оформляют legal hold: для конкретных ящиков и периода запрещают удаление и изменение в архиве, даже если обычный ретеншн уже бы сработал. Снимают hold только после подтверждения от юристов.
Выгрузку готовят так, чтобы ее можно было читать и проверять: единый формат (например, PST/EML + каталог), папки по ящикам, файл-описание с критериями запроса, датами, часовым поясом и количеством найденных объектов.
И отдельно - аудит. Должно быть видно, кто запускал поиск, какие фильтры применял, кто делал выгрузку, кто получил копию и когда. Это защищает и ИТ, и юристов, если позже возникнут вопросы к полноте выдачи.
Следующие шаги: инфраструктура, пилот и ответственная эксплуатация
Когда требования к поиску, ретеншну и доступам уже зафиксированы, следующий риск - "поставили и забыли". Для архива корпоративной почты on-prem лучше сразу перейти к плану: сколько данных будет, какая инфраструктура нужна и как вы подтверждаете, что система работает предсказуемо.
Инфраструктура: считать не только ящики
Начните с простой оценки: сколько активных почтовых ящиков, какой средний прирост в месяц, какая доля приходится на вложения и каков срок хранения. От этих цифр зависят хранилище, нагрузка на индекс и окно резервного копирования.
Чтобы не упереться в "вчера работало, сегодня нет", заранее заложите:
- запас по емкости и производительности на рост и пики (например, массовые рассылки)
- отказоустойчивость: что будет при падении узла, диска или площадки
- отдельное внимание к индексам: их восстановление часто сложнее, чем восстановление писем
- регулярные проверки бэкапов и понятный RPO/RTO для архива
Пилот и эксплуатация: критерии приемки и дисциплина
Пилот должен быть небольшим по охвату, но "настоящим" по сценариям: юридический запрос, выгрузка, аудит действий, восстановление письма и индекса. Сразу договоритесь, кто владелец процесса, кто администрирует, а кто имеет право искать и выгружать.
Для приемки удобно закрепить несколько измеримых критериев:
- скорость поиска по типовым запросам (по отправителю, теме, вложению)
- полнота: сколько писем и вложений реально попадает в архив
- отчетность по ретеншну и legal hold без ручных таблиц
- аудит: кто и что искал, просматривал, выгружал
- регулярный тест восстановления (письма и индекса)
Если нужен on-prem проект под ключ, GSE.kz может помочь с подбором и поставкой серверов и рабочих станций, системной интеграцией и поддержкой 24/7, чтобы пилот не уперся в инфраструктуру и дальнейшую эксплуатацию.
FAQ
Почему нельзя просто включить архив и разбираться по ходу?
Зафиксированные требования дают повторяемый результат: один и тот же запрос должен находить одно и то же, независимо от того, кто ищет и какие у него права. Без правил вы столкнетесь с разными наборами писем из‑за неполной индексации, задержек попадания в архив, отличий в правах и ручных выгрузок.
Что обязательно должно попадать в архив письма?
Минимально стоит архивировать тело письма, заголовки и метаданные, а также вложения с явной связью «какой файл в каком письме». Для восстановления переписки в спорах полезно сохранять связи в цепочках ответов, чтобы диалоги собирались без догадок.
Какие границы архива чаще всего забывают определить?
Обычно возникают «дыры» из‑за общих ящиков, алиасов, сервисных адресов и внешних пересылок. Границы лучше описывать списком источников и исключений, чтобы было понятно, какие ящики и какие потоки сообщений считаются доказуемыми, а какие нет.
Почему поиск в архиве может давать разные результаты?
Поиск ломается, когда индекс не включает часть полей или вложений, либо по-разному обрабатывает форматы и кодировки. Самый практичный шаг — заранее прописать, что индексируется в письме и во вложениях, и какие типы файлов либо индексируются, либо хранятся без индекса с понятным ожиданием.
Нужен ли OCR для вложений PDF и сканов?
OCR нужен, если вам важно искать текст внутри сканов и «картинок в PDF». Если OCR не включен, такие вложения будут находиться только по имени файла и метаданным письма, и это нужно прямо обозначить в требованиях, чтобы не ждать невозможного.
Как учесть русский, казахский и английский в индексации и поиске?
Для Казахстана критично, чтобы архив корректно работал с кириллицей, казахскими символами и смешанными языками в одном письме или вложении. В требованиях закрепляют поддержку кодировок, корректное хранение исходного текста и предсказуемое поведение поиска по словам и фразам.
Как правильно определить ретеншн для корпоративной почты?
Ретеншн задает правило, сколько хранить и когда удалять, и делает поведение архива понятным для ИТ и юристов. По умолчанию лучше выбрать простую и проверяемую схему сроков по типам ящиков, а затем добавлять исключения только там, где они реально нужны и могут быть подтверждены.
Что такое legal hold и когда его включать?
Legal hold — это техническая «заморозка», которая точечно блокирует удаление для конкретных ящиков, периодов или кейса. Его важно включать без ручных обходов и так, чтобы он распространялся и на письма, и на вложения, а после снятия объекты снова подчинялись обычным правилам хранения.
Как настроить права доступа, чтобы и безопасно, и удобно?
Разделяйте право искать, право читать содержимое и право экспортировать, потому что риски у этих действий разные. Хорошая практика — минимальные права, временный доступ под конкретный кейс и раздельное подтверждение экспорта, чтобы никто один не мог «найти‑прочитать‑выгрузить» без контроля.
Как обеспечить аудит и доказуемость при поиске и выгрузке?
Нужны логи, которые фиксируют параметры поиска, просмотр писем, экспорт, изменения ретеншна, legal hold и прав, чтобы можно было повторить запрос и объяснить результат. Для выгрузок полезно хранить подтверждение целостности и сведения, кто и когда сформировал пакет, чтобы исключить споры о подмене или неполноте.