Блог

Почему Open Source ClickHouse не всегда используется в SIEM-решениях?

ClickHouse, высокопроизводительная колоночная Open Source СУБД, часто рассматривается как потенциальное решение для различных систем безопасности информации. Однако ее применение в SIEM-продуктах может нести функциональные ограничения.

Несмотря на то, что ClickHouse демонстрирует впечатляющую скорость поиска данных, его схемозависимая архитектура требует больше времени специалистов для обработки данных. Для работы с системой необходимо приводить информацию к единой схеме данных и прописывать инструкции строгого парсинга в применяемую вендором модель. В нашей SIEM-системе Alertix мы используем schemaless СУБД. Она создана для хорошей масштабируемости, возможности хранения неструктурированных данных, использования различных типов хранилищ. Такая СУБД позволяет не приводить всю информацию к единой схеме данных, если в этом нет потребности.

Кроме того, ClickHouse плохо справляется с полнотекстовым поиском — его скорость крайне низкая, а потребление ресурсов для его реализации выше, чем у решений, предназначенных для полнотекстового поиска. Это критично для SIEM, где быстрый поиск по логам — необходимость.

Причем это не означает, что колоночные СУБД неэффективны — они отлично справляются с большими выборками данных для применения различных математических функций и построения поведенческих профилей. Так, ClickHouse позволяет обрабатывать огромные объемы информации нашему модулю поведенческой аналитики в основе другого нашего продукта — Dataplan. Дополнительно система помогает строить хорошую статистическую отчетность и выборку для ее визуализации модулем аналитики нашей платформы.

Тем не менее, что касается SIEM, то переход на ClickHouse был бы не лучшим решением. Он может привести к экономии ресурсов, но существенно ограничит возможности аналитика информационной безопасности в триаже, свободном поиске и расследовании инцидентов и др.

В развитии нашего SIEM-решения Alertix мы планируем переход к универсальной платформенной модели, поддерживающей различные СУБД, включая имеющиеся у потребителя и без необходимости разворачивания в составе системы. Пользователь сам будет выбирать, согласен ли он «обменять» вычислительные мощности на функциональность.