Компания хочет использовать GPT-4 для анализа договоров. Проблема: в договорах — имена, ИНН, суммы, условия. Отправить в облако = потенциальная утечка. Решение «не использовать» — потеря конкурентного преимущества. Что делать?
Бесплатная диагностика — результат за 5 минут
Два слоя детекции
Слой 1: Регулярки и маски
- ИНН, ОГРН, паспортные данные — по формату
- Email, телефоны — по паттернам
- Быстро, надёжно для структурированного
Слой 2: NER-модели
- Имена, названия компаний, адреса
- Контекстно-зависимые сущности
- Правило: UNKNOWN → SENSITIVE (лучше перебдеть)
Псевдонимизация
Что это: замена реальных данных на псевдонимы с сохранением структуры.
- «Иванов Пётр» → «PERSON_001»
- «ООО Ромашка» → «COMPANY_042»
- «5 000 000 руб.» → «AMOUNT_017»
Карта соответствий хранится локально, с минимальными правами доступа и TTL.
RAG-контур
Для RAG (Retrieval-Augmented Generation) особый подход:
- Санитизация на этапе индексации
- Эмбеддинги строятся по обезличенным текстам
- В облако уходят только обезличенные чанки
- Ре-гидратация при формировании ответа
Privacy как часть risk management
Согласно NIST Privacy Framework и NIST SP 800-188:
- Privacy-процесс = часть enterprise risk management
- Governance: кто отвечает, какие политики
- Мониторинг: как проверяем, что работает
- Реагирование: что делать при инциденте
Практика внедрения: от пилота к production
Внедрение privacy-gateway — это не только технология, но и организационный процесс.
Этап 1: Классификация данных (1-2 недели). Определите, какие именно данные обрабатываются LLM. Создайте реестр: типы ПД, объёмы, частота обращений. Без этого невозможно настроить детекцию — вы не знаете, что искать.
Этап 2: Пилот на одном процессе (2-4 недели). Выберите один бизнес-процесс с использованием LLM и внедрите gateway для него. Замерьте: качество детекции (false positives, false negatives), влияние на скорость работы, качество ответов модели после де-идентификации.
Этап 3: Масштабирование (4-8 недель). По результатам пилота настройте правила детекции, расширьте на другие процессы. Внедрите мониторинг и алертинг: если gateway пропускает ПД — это инцидент, который нужно расследовать.
По нашему опыту, основная сложность — не техническая, а организационная. Юристы, ИБ и бизнес должны договориться: что считается чувствительными данными, какой уровень риска приемлем, кто отвечает за инциденты.