Constructor of natural language processing blocks and its application in the problem of structuring logs in information security
Abstract
В статье рассматривается проблема обработки естественного языка в сфере информационной безопасности. В статье предложен конструктор блоков обработки естественного языка, описаны его концепция, архитектура и принцип работы. Рассмотрено решение проблемы структурирования журналов в сфере информационной безопасности с помощью разработанного конструктора. Формируется единый и стандартизированный формат записи событий. Проведен анализ моделей естественного языка (BERT, ALBERT, DistilBERT, XLNet, GPT-2) для задачи структурирования журналов. Качество алгоритмов оценивается с помощью следующих показателей: Точность и F1-Score.
Результаты задачи структурирования журнала могут быть использованы аналитиками и разработчиками в области информационной безопасности, а также могут быть использованы для расширения функциональности SIEM-системы.