Поведенческий анализ (UEBA) все активнее внедряется в бизнес-процессы, превращаясь из сложной аббревиатуры в эффективный маркетинговый инструмент. Однако часто, как только дело доходит до практического применения или демонстрации реальных результатов работы, возникают трудности. Это объясняется новизной инструментов подобного класса для сферы ИБ. Андрей Шабалин, аналитик по информационной безопасности NGR Softlab, в экспертной статье на CISOCLUB рассказал об особенностях практического применения, а также о типичных проблемах взаимодействия с UEBA-решениями.
Методы обнаружения угроз
Эволюция методов обнаружения угроз тесно связана с развитием технологий. Первые поведенческие модели были жесткими и статичными, они не предусматривали значительную амплитуду в отслежваемых действиях. Их функциональность зависела от объемов баз сигнатур. Хотя сигнатурный метод определения угроз обеспечивает высокую точность, поведенческие модели негибки и требуют постоянного обновления, а их эффективность снижается из-за вариативности действий злоумышленников.
Использование категоризации в сигнатурном подходе помогает снизить их жесткость, однако сужает древо поведенческой активности сущности, что приводит к увеличению вероятности ложноположительных срабатываний.
Сравнительная таблица этапов развития методологии обнаружения киберугроз, NGR Softlab
Статистический метод обнаружения угроз основан на выявлении отклонений от нормального поведения пользователей, хостов и других сущностей. Он более гибок, чем сигнатурный, однако требует от аналитика знаний статистики и способности интерпретировать выявленные аномалии.
Например, вход в корпоративную сеть в нетипичное для пользователя время является признаком аномального поведения. Гибкость статистического подхода обеспечивается возможностью калибровки границ аномалий и пороговых значений. В отличие от сигнатурного метода, где аналитик работает с отдельными событиями, в этом случае он имеет дело со статистическими метриками, которые необходимо выделять из потока событий и, при необходимости, дополнительно настраивать или обогащать. В некоторых продуктах, как в нашей платформе Dataplan, подобные поведенческие признаки доступны по умолчанию, и пользователь может применять сразу весь аналитический инструментарий и контент с самого начала.
Машинное обучение (ML) выводит детектирование угроз на новый уровень. Система, обучаясь на огромных объемах данных из миллионов событий, самостоятельно строит поведенческие модели, выявляя сложные зависимости, которые непросто описать простыми правилами. Поскольку сама модель для неподготовленного пользователя представляет собой «черный ящик», ему будет затруднительно ее настраивать или донастраивать. Зато взамен при ML-подходе он получит наиболее высокую точность обнаружения из всех описанных ранее типов (с небольшой оговоркой, что эта точность часто достигается при узкой применимости моделей). Дополнительной сложностью может также стать увеличенная требовательность к вычислительным ресурсам при использовании ML-моделей. Подобные модели также нередко обладают дополнительными требованиями к обработке входного потока событий.
Объединение различных подходов позволяет компенсировать недостатки каждого из них. Гибридные модели, комбинирующие сигнатурный анализ, статистические методы и машинное обучение, обеспечивают высокую точность и адаптивность. Например, сигнатуры используются для обнаружения известных угроз, а ML — для выявления новых. Гибридный подход считается наиболее перспективным благодаря сочетанию преимуществ различных методов.
Практическое применение
Часто сложности взаимодействия с UEBA-решением появляются еще в момент внедрения поведенческой модели в текущие ИБ-процессы. Пользователи сталкиваются с тем, что поведенческие модели сущностей варьируются между группами и эти группы не всегда соответствуют организационной структуре компании. Причем процесс «тюнинга» моделей можно назвать неизбежным для достижения результативности.
На практике средства поведенческого анализа чаще всего используются для:
- обнаружения аномалий во времени активности пользователей;
- мониторинга частоты и объемов при взаимодействии с данными;
- определения пользовательского поведения при доступе к различным ресурсам;
- географического позиционирования и дальнейшего сопоставления.
Предлагаю рассмотреть практику применения статистического подхода к обнаружению угроз, поскольку он проще для понимания, чем методы машинного обучения (с кластеризацией и embedding’ами), и является относительно новым в сравнении с классическими сигнатурными СЗИ.
Основываясь на опыте внедрения нашей аналитической платформы Dataplan, заказчики чаще всего требуют реализации одной-двух задач из перечисленных выше (преимущественно из первой тройки). Если же мы говорим об использовании средств статистического анализа, ключевым вопросом становится выбор необходимых метрик. Далее мы их рассмотрим для каждой из задач.
Аномальное время активности. При работе с временем пользовательской активности необходимо внимательно отнестись к определению источника данных. Наиболее простым решением в этом случае является использование событий аутентификации из контроллера домена и пользовательских устройств (например, всем известные события безопасности 4624 из журнала аудита). На ранних этапах зрелости процессов ИБ в области мониторинга этого может быть достаточным для того, чтобы выявлять аномальное время доступа в пользовательской активности.
Если доступ пользователей контролируется дополнительными механизмами или есть дополнительный контекст для анализа, можно расширить ландшафт мониторинга с помощью этих источников. Анализ контекста входа (например, тип подключения – из офиса или удалённо) также повышает эффективность, особенно в компаниях с регламентированным графиком работы (например, офис с понедельника по четверг, удаленная работа по пятницам). В организациях с гибридным, «нестабильным», форматом работы количество false-positive срабатываний может возрастать.
Анализ частоты и объема взаимодействия с данными. Частоту и объем я тут объединил, однако стоит отметить, что подходы при профилировании и мониторинге данных метрик чаще всего используются разные. Например, если речь идет о частоте пользовательского взаимодействия с данными, нас в первую очередь будет интересовать количество событий обращения к конкретным объектам (файловым серверам, отдельным таблицам в базах данных, страницам в базах знаний). Для мониторинга можно использовать, например, события безопасности Windows (5140/5145 для файловых ресурсов, 4663 для доступа к объектам). При изучении активности в разрезе доступа к базам данным полезными могут стать логи СУБД с применением к конкретным событиям из них фильтров (например, с помощью regexp, примененным к пользовательским СУБД-запросам).
Мониторинг объема передаваемых и принимаемых данных сложнее, чем анализ частоты обращений, и требует больше ресурсов, поэтому важны оптимизация, нормализация и агрегация данных. При этом критичен выбор периода дискретизации (интервала агрегации данных): слишком большой интервал может «смазать» кратковременные всплески активности, слишком малый — приведет к увеличению числа ложноположительных срабатываний. Выбор оптимального периода зависит от конкретной инфраструктуры и задачи и требует внимательного анализа.
Если же говорить об источниках, в первом случае для базовой «поведенки» достаточно будет контекста событий 5140/5145. Для анализа объемов пользовательской активности полезными могут стать сведения, поступающие с сетевых устройств, а также из журналов VPN-служб. В случаях, когда речь касается утечек, сразу на ум приходят DLP-системы, однако поведенческая аналитика по данным от подобных СЗИ заслуживает отдельной статьи.
Схожие подходы используются аналитиками для анализа поведения пользователей при обращении к конкретным системам, сервисам, ресурсам и файлам. Здесь, помимо событий 5140/5145 с файловых серверов, важна детальная проработка масок доступа. Логи веб-серверов также полезны при анализе обращений к сервисам и ресурсам, особенно с учетом контекста событий.
Для географического позиционирования исследуемой сущности, как правило, часто необходим механизм обогащения событий. Некоторые UEBA-комплексы используют под капотом свои модули обогащения, иногда подобным контекстом может обогатить событие исходное СЗИ. Если же таких средств нет, некоторые системы, как и наша платформа Dataplan, позволяют включать собственные скрипты обогащения в обработку событий. Например, можно добавлять географическую информацию из собственного GeoIP-справочника к данным сетевого оборудования.
Итак, мы рассмотрели ключевые аспекты применения поведенческого анализа (UEBA) для повышения кибербезопасности, а также основные метрики, используемые в типовых сценариях с применением базового анализа и профилирования. Важно понимать, что эти метрики не являются самостоятельными индикаторами компрометации, а наиболее эффективны в сочетании с другими признаками в сложных UEBA-моделях. В модуле поведенческой аналитики Dataplan мы называем такие сложные модели «метапрофилями», а отдельные признаки — «профилями». Поведенческий анализ в Dataplan использует в том числе и статистические методы анализа.
Несмотря на то, что настройка сложных моделей может занять значительное время, эффективность откалиброванной UEBA неоспорима. Поведенческий анализ остается мощным инструментом для повышения уровня защищенности организаций. Комплексный подход к настройке и использованию этих решений открывает новые возможности в борьбе с инсайдерскими угрозами и выявлении сложных поведенческих аномалий.
Источник: CISOCLUB