Новый метод поможет закрыть уязвимость нейросетей к вредоносным примерам
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Сотрудники Массачусетского технологического института (MIT) предложили метод оценки надёжности моделей машинного обучения (нейронных сетей) для различных задач, позволяющий обнаруживать допускаемые ими ошибки.
Так называемые, свёрточные нейросети (Convolutional Neural Networks, CNN), обрабатывают и классифицируют изображения в системах машинного зрения и в других приложениях. Незначительное, неощутимое для человеческого глаза, изменение — например, цвета нескольких пикселей картинки — может заставить CNN принимать одно изображение за совершенно другое. Так, в одном из примеров черно-белая наклейка на дорожный знак мешала самоуправляемым автомобилям воспринимать его как стоп-сигнал.
Подобные модификации носят название ’adversarial examples’, что может переводится как «вредоносные образцы» или «состязательные примеры». Изучение механизма их воздействия на нейросети может помочь в оценке степени уязвимости последних к неожиданным входящим данным при использовании CNN в реальном мире.
В статье, представленной на Международную конференцию по обучению представлениям, команда из MIT представила методику, которая либо находит для каждого примера его вредоносный аналог, либо гарантирует, что все незначительно изменённые варианты исходного примера будут правильно классифицированы. Таким образом, эта техника измеряет степень надёжности нейросети для решения конкретной задачи.
Ранее уже были известны подобные методы, но по сравнению с ними предложенная техника работает на три порядка величины быстрее и может масштабироваться на гораздо более сложные CNN. Выигрыш достигается за счёт использования модифицированной версии смешанного (mixed-integer) метода оптимизации, служащего для нахождения максимума функции при ряде ограничений, налагаемых на переменные.
В качестве концептуальной демонстрации, исследователи проверили своим методом надёжность CNN, натренированной различать рукописные цифры на массиве MNIST, содержащем 60 тысяч учебных и 10 тысяч тестовых изображений.
Опробовав все возможные модификации для каждого пикселя изображения, система обнаружила, что порядка 4% всех картинок могут быть использованы для генерирования вредоносных примеров, вызывающим у модели сбои классификации.
- Источник(и):
- Войдите на сайт для отправки комментариев