LLM Firewall: устарел, не успев родиться? Почему защита чато

📘 HABR

LLM Firewall: устарел, не успев родиться? Почему защита чатов не работает в мире AI-агентов

📅 Дата публикации

Thu, 09 Apr 2026 09:27:42 GMT

📄 Содержание

История про сумасшедшую скорость изменений. Пока мы в Ideco создавали задачи в Jira, исследовали технологии и возможность реализации модуля «LLM Firewall» в Ideco NGFW – ландшафт угроз использования AI принципиально изменился и все приходится переделывать заново.Первое поколение LLM Firewall проектировалось для защиты чат-интерфейсов: пользователь отправил запрос – модель ответила – файрвол отфильтровал. Похоже на известную нам работу прокси-сервера или DLP-решения. Но за 2025–2026 годы индустрия резко перескочила от «чатов» к автономным агентам, которые вызывают инструменты, ходят в базы данных, принимают решения и общаются с другими агентами. Концепция LLM Firewall переродилась раньше, чем полностью оформилась –в Agent Runtime Security. Но назвать сегодняшние stateless-фильтры промптов «решением проблемы безопасности агентов» – значит обманывать всех и продавать «воздух».Два года назад разговор об LLM-безопасности сводился к простой формуле: не дать пользователю сломать чатбот (если конечно отбросить «драконовские» и не выполнимые в современных компаниях требования – ЗАПРЕТИТЬ). Prompt injection, jailbreak, утечка персональных данных – вот и весь threat model. Ответ рынка был логичен: поставить прокси между пользователем и моделью, отфильтровать вредоносный или содержащий чувствительные данные промпт на входе, проверить ответ на выходе. Но тут уже можно было столкнуться со сложностью – «фильтрующей» модели нужно было поддерживать контекст в водовороте вопросов и ответов в чате, что не просто и требует большой мощности. Читать далее

🔗 Источник

🔗 Читать оригинал на HABR

← Назад

Детали новости