Нейросеть научилась понимать тексты из даркнета. Теперь она может определять киберугрозы

Исследователи из Южной Кореи обучили языковую модель DarkBERT на текстах из даркнета. Люди общаются в даркнете иначе, чем в обычном интернете, в том числе используют свой сленг. Модель изучила этот язык, и теперь ее можно применять в задачах кибербезопасности.

Препринт доступен на arXiv.org.

Языковые модели сегодня применяют для изучения разных текстов. Это нейросети, которые обучились на большом количестве данных и хорошо выполняют задачи, связанные с пониманием речи. Популярные языковые модели основаны на архитектуре Transformer, которую придумали инженеры из Google — такие модели умеют фокусировать внимание на важных частях предложения.

Языковые модели лучше всего понимают то, что похоже на примеры из обучающей выборки. Обычно они учатся на больших объемах текстов из интернета, поэтому понимают много чего: литературный язык, сообщения из социальных сетей, научно-популярные статьи. Но есть тексты, которые не попадают в обучающую выборку, в том числе тексты из даркнета. У них есть свои лингвистические особенности: словарный запас, распределение частей речи и даже синтаксис. Обычные языковые модели это не учитывают, потому что во время обучения не видели таких текстов. Выход есть — обучить языковую модель на материалах из даркнета.

Даркнет — это часть интернета, которую не найти в обычных поисковиках вроде Яндекса или Гугла. Туда нельзя попасть через обычный браузер. Есть разные сервисы для входа в даркнет, авторы исследования использовали Tor. Люди в даркнете общаются анонимно, и их сложно отследить. Поэтому даркнет стал платформой для всякого незаконного, от утечек данных до торговли запрещенными веществами. Специалисты по кибербезопасности постоянно ищут способы мониторить и изучать тексты в даркнете.

Группа ученых из Южной Кореи под руководством Сун Вон Шина (Seungwon Shin) из Корейского института передовых технологий собрала корпус текстов из даркнета и обучила на нем языковую модель DarkBERT.

Подробнее
Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

N+1