Блог

ИИ в защите информации: ожидания и реальность для заказчиков и вендоров

В современном мире информационной безопасности искусственный интеллект (ИИ) может воспринимается как универсальное решение всех проблем. Однако практика показывает существенный разрыв между ожиданиями и реальностью применения ИИ-решений. Николай Перетягин, менеджер по продукту NGR Softlab, в авторской статье на CISOCLUB делится наблюдениями и опытом внедрения ИИ в системы защиты информации.

Ожидания: две грани

При работе с заказчиками мы обнаружили две противоположные позиции относительно применения ИИ в информационной безопасности.
Первая группа (порядка 80%) – «технологические романтики». Они видят в ИИ универсальное решение всех проблем безопасности, своеобразный магический шар, который автоматически обнаружит все угрозы, заблокирует атаки и практически не потребует вмешательства человека. Такие заказчики часто проводят параллели с ChatGPT и ожидают схожего уровня интеллектуальности от систем безопасности.
Вторая группа (около 20%) – «прагматики». Их интересуют конкретные инструменты машинного обучения (ML), которые можно адаптировать под специфику их бизнес-процессов. Они готовы работать с базовыми алгоритмами – регрессией, кластеризацией, поиском аномалий, понимая необходимость обучения моделей на собственных данных.
В таком расхождении ожиданий нет ничего удивительного. Каждая компания уникальна и проходит собственные этапы развития. На каждом этапе возникают свои потребности, и, соответственно, нужны различные подходы к построению системы защиты, включая поведенческий анализ и ИИ. Выбор решения должен быть продиктован конкретными задачами, стоящими перед организацией в данный момент. Одни идут к вендору за экспертизой (рыбой), другие — за инструментом (удочкой).
Суровая реальность, с которой сталкиваются все, показывает, что готовых решений нет, особенно универсальных.

Реальность для пользователей

1. Ключевая проблема – все модели ИИ являются «черными ящиками», и доверять им работу систем защиты информации (ЗИ) кажется опрометчивым.
2. Производительность моделей (нейронных сетей) напрямую зависит от вычислительных ресурсов. Для эффективной работы требуются не только ядра процессора, но и дискретные видеокарты, а также достаточный объем оперативной памяти.
Потоковая обработка больших объемов данных доступна только крупным компаниям, располагающим собственными центрами обработки данных (ЦОД) и вычислительными кластерами. В противном случае возникает необходимость в передаче конфиденциальных данных во внешние сети, что сопряжено с рисками. Размещение вычислительных мощностей у вендора также поднимает вопросы безопасности данных, маскировки и защиты каналов связи.
Небольшие модели, хоть и пригодны для решения узкоспециализированных задач и могут работать на стандартных процессорах, требуют регулярного переобучения и актуализации, поскольку плохо адаптируются к изменяющимся угрозам.
Обновление (переобучение) моделей критически важно в связи с постоянной эволюцией атак и методов их реализации. Таким образом, выбор стоит между использованием небольших, менее требовательных к ресурсам моделей с необходимостью постоянного переобучения, и инвестициями в мощное оборудование для использования сложных самообучающихся моделей.
Кроме того, маленькие модели, по сути, анализируют параметры на предмет совпадений с известными вредоносными образцами, что является принципом работы сигнатурных методов. Возникает вопрос об эффективности использования машинного обучения в данном контексте. Хотя преимуществом таких моделей является возможность выявления неточных совпадений.
3. Также важно также учитывать проблемы с поддержкой русского языка в некоторых моделях, что может затруднить анализ результатов.
В конечном итоге, необходимы либо готовые переобученные модели, либо собственная экспертиза в области анализа данных и машинного обучения, что подразумевает наем аналитиков и data-инженеров. И на данный момент эксплуатация решений на основе ИИ представляет собой непрерывный процесс совершенствования. Хотя некоторым компаниям удается достичь поставленных целей, это требует значительных инвестиций в инфраструктуру и данные.
Итак, с пользователями разобрались. Что же происходит у разработчиков?

Реальность для вендоров

Тут тоже все не так просто, как хотелось бы.
Использование готовых моделей сопряжено с рисками, связанными с отсутствием информации об используемых данных и методах обучения. Необходима тщательная проверка адекватности результатов работы модели, особенно в пограничных случаях. Разработка модели с нуля требует значительных финансовых и временных затрат. В обоих случаях требуется мощное вычислительное оборудование, обеспечивающее эффективное охлаждение.
Для обучения, дообучения и переобучения моделей необходим большой объем качественных данных. А где их брать? Сбор данных у клиентов без их согласия является неприемлемым с этической и юридической точек зрения.
Отдельной проблемой является постоянное обновление моделей и реализация механизмов доставки обновлений, особенно в изолированные сети. Возможные ограничения доступа к драйверам со стороны производителей оборудования, которое необходимо для работы модели, тоже создают дополнительные трудности.
Также следует учитывать, что нейросетевые модели могут демонстрировать некорректное поведение — «галлюцинировать» или игнорировать инструкции.
Кроме того, вопросы безопасности приобретают первостепенное значение – и нужно принимать в расчет риски, связанные с безопасной разработкой, расширением поверхности атак и защитой моделей.
Однако все не все так плохо, как кажется, особенно если мы говорим не только о нейронных сетях, но и о классических алгоритмах машинного обучения, которые, например, мы в NGR Softlab активно встраиваем в свои решения. Перед включением того или иного ИИ-алгоритма в продукт мы проводим доскональные исследования и внедряем только те, которым можем полностью доверять.

Применение технологий ИИ на практике

В NGR Softlab мы интегрируем технологии ИИ в три из четырех наших решений. Наиболее полное применение реализовано в платформе Dataplan где умные алгоритмы используется в модулях обработки данных. Кстати, решение имеет официальный признак ПО с ИИ в Росреестре.
Компоненты платформы и модули позволяют, помимо базовых задач по работе с big data, работать с собственными скриптами обработки данных для нормализации и парсинга данных (например, SQL-запросов для дальнейшего анализа). Кроме того, платформа предоставляет инструменты для построения различных систем визуализации результатов анализа.
Модуль поведенческой аналитики Dataplan
С точки зрения технологий ИИ, модуль выполняет анализ временных рядов для выявления отклонений в производственных процессах и поиска их причин.
При этом оценка отклонений выполняется как по групповой статистике (эффективно для поиска признаков компрометации), так и по групповой статистике – полезно для поиска инсайдерской деятельности.
Модуль ролевого моделирования Dataplan
С применением ИИ модуль использует методы обработки естественного языка для классификации и кластеризации пользователей и их привилегий, так как работает с данными служб каталогов, представленными в текстовом формате. Дополнительно выполняется оценка аномальности состава привилегий пользователей и их ранжирование с использованием методов кластеризации, матричного анализа и оценки отклонений.
Таким образом, в нашей аналитической платформе и ее модулях используются классические методы машинного обучения, покрывающие широкий спектр задач ИБ.
Нейронные сети и языковые модели пока не продемонстрировали достаточной эффективности с точки зрения результатов анализа и скорости обработки данных. В частности, алгоритмы, применяемые в ядре поведенческого модуля, успешно решают большинство задач отслеживания устоявшихся паттернов поведения объектов контроля, обеспечивая при этом высокую скорость работы и качество обнаружения отклонений.

Выводы

Подводя итог можно сказать, что необходим осознанный подход к выбору продуктов и инструментов с ИИ. Внедрение любого ИИ-решения не только помогает решить определенные прикладные ИБ-задачи, но и потенциально создает новые поверхности атак или расширяет существующие.
Оптимальной стратегией представляется комбинированное использование различных технологий, где каждая применяется в наиболее эффективном для себя разрезе. В одних случаях это могут быть сигнатурные методы, в других – классические алгоритмы машинного обучения, а в третьих – генеративный ИИ.
На текущем этапе развития технологий наиболее продуктивным является симбиоз человека и машины. Осознанное применение технологий искусственного интеллекта, понимание их возможностей и ограничений, а также грамотное сочетание с традиционными методами защиты для достижения максимальной эффективности в обеспечении информационной безопасности. В конечном счете, и роботы, и человек продолжают работать вместе, дополняя возможности друг друга, что является наиболее перспективным путем развития отрасли информационной безопасности.
Источник: CISOCLUB