Реконструкция изображения: 1 км оптоволокна, искусственная нейронная сеть и глубокое обучения
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
В наше время оптические волокна стали неотъемлемой частью самых разных сфер жизни человека: от домашнего интернета до эндоскопии. Использование оптических волокон обусловлено целым рядом преимуществ: скорость передачи, физическая прочность, пропускная способность, информационная безопасность и т.д.
Дабы увеличить пропускную способность было создано многомодовое оптоволокно (MMF), когда информация передается по нескольким параллельным каналам. Несмотря на все свои достоинства, MMF имеет и ряд недостатков, один из которых исследователи решили ликвидировать, дабы усовершенствовать процесс передачи изображений. Суть такова: когда образец проецируется на проксимальную сторону MMF, изображение, которое мы получаем на дистальной стороне, представляет собой спекл, поскольку его входящие данные распределяются по множеству мод с разной степенью распространения вдоль длины волокна. Ученые предлагают использовать комбинацию многомодового волокна и глубокое обучение для искусственных нейронных сетей, чтобы получать точные изображения, в том числе и при использовании эндоскопии. Давайте покопаемся в отчете исследователей и попробуем понять как это работает и какие дает результаты. Поехали.
Основа исследования
Техники использования искусственных нейронных сетей для расшифровки изображений, переданных через MMF, разрабатывались уже давно. Так в ранних работах описывалась двухслойная сеть, способная распознать около 10 изображений, прошедших через 10 метров ступенчатого волокна.
В данном же исследовании система гораздо сложнее, но и, по заявлению ученых, гораздо эффективнее. Начальным этапом был сбор большого числа образцов спеклов, полученных путем пропускания изображения через MMF. Они стали базой знаний для обучения DNN (искусственная нейронная сеть на базе глубокого обучения*).
Пример спекл-изображения
Глубокое обучение* — комбинация методов машинного обучения на базе представления, а не специализированного алгоритма под конкретную задачу.
Архитектура DNN весьма сложна и насчитывает порядка 14 скрытых слоев*.
Скрытый слой* — искусственная нейронная сеть состоит из вычислительных единиц (нейронов), которые делятся на 3 категории: входные, скрытые и выходные. Входные принимают информацию, скрытые производят различные вычисления, а выходные передают информацию дальше.
Для проведения экспериментов над DNN была создана база из 20 000 вручную написанных цифр. Далее базу в случайном порядке разделении на группы:
- 16 000 цифр — тренировочная;
- 2 000 цифр — проверочная;
- 2 000 цифр — тестовая.
Подготовка к эксперименту
На изображении ниже представлена схема оптической системы, которая использовалась для сбора данных.

Изображение №1: схема установки:
Laser source — источник лазерного излучения (луча);
HWP — полуволновая пластина;
M1 — зеркало;
SLM — пространственный модулятор света;
P — линейный поляризатор;
L — линза;
BS — разделитель луча;
OBJ — объектив микроскопа;
OF — оптическое волокно;
CCD — ПЗС-камера.
А теперь по порядку. Лазерный луч с длиной волны 560 нм направляет свет через градиентное оптоволокно* с диаметром сердцевины 62.5 мкм и числовой апертурой* 0.275.
Градиентное MMF* — оптоволокно с неоднородным профилем преломления, когда коэффициент преломления плавно уменьшается от края к оси волокна.
Сравнение типов оптоволокна: ступенчатое многомодовое, градиентное многомодовое и одномодовое (сверху вниз).
Числовая апертура* — синус максимального угла между лучом и осью. При этом есть полное внутреннее отражение при распределении излучения по волокну.
При конкретной длине волны волокно способно поддерживать порядка 4500 пространственных мод. Входные образцы (изображения) отображаются на пространственном модуляторе света, после чего перенаправляются посредством 4f-системы на проксимальную (близкую к центру) грань MMF. На дальнем конце волокна другая 4f-система визуализирует спекл, исходящий из дистальной (дальней от центра) грани волокна, на ПЗС-камеру.
ПЗС* — прибор с зарядовой связью, в котором реализована технология управляемого переноса заряда в объёме полупроводника.
Для проверки фазовых и амплитудных моделей, как входных сигналов для градиентного MMF, до SLM была установлена полуволновая пластина, а после SLM — линейный поляризатор.
Как уже было сказано ранее, в качестве образцов выступали вручную написанные цифры. Они были взяты из базы MNIST.
Прежде чем быть обработанным DNN, каждое из изображений, записанное на CCD1 или CCD2, обрезалось до размеров 1024 × 1024 пикселя. Далее полученные изображения спеклов уменьшались до размеров 32 × 32 пикселя и использовались как входные для DNN.
Изображение №2
На изображениях 2а и 2b мы видим образцы цифр (0 и 4). 2с и 2d это те же цифры, но после амплитудной модуляции, когда изменениям была подвержена именно амплитуда передаваемого сигнала. 2е и 2f — цифры-образцы после фазовой модуляции, когда фаза несущего колебания изменялась прямо пропорционально сигналу. Также мы видим сами спеклы, которые были зафиксированы на дистальной грани волокна после прохождения расстояния в 2 см.
Отличить спеклы (2g и 2h) достаточно сложно. Однако если сопоставить изображения 2d и 2h (для примера рассматриваем образец «4»), то можно вычленить отличие, которое DNN может определить (2i). Тем самым эти отличительные черты позволят системе отличить «0» от «4», «2» от «9» и т.д.
Обработка данных
Основой системы определения спеклов и реконструированных входных изображений стала свёрточная нейронная сеть* типа «Visual Geometry Group (VGG)» (3a).
Свёрточная нейронная сеть* — архитектура ИНС, отличающаяся операцией свертки, когда каждый фрагмент изображения умножается на матрицу свертки поэлементно, после чего результат суммируется и записывается в аналогичную позицию выходного изображения.Внедрение подобной системы позволило расшифровывать изображения с большей точностью. Для реконструкции изображений использовался «U-net» тип свёрточной нейронной сети с 14 скрытыми слоями (3b).
Пример архитектуры свёрточной нейронной сети.
Изображение №3
Напомним, что база цифр из 20 000 была разделена на три группы (16 000 — тренировка, 2 000 — проверка и 2 000 — тест).
Группа тренировки обрабатывалась партиями по 50 штук для сети реконструкции и по 500 для сети определения. При этом партии менялись, чтобы избежать переобучения*.
Переобучение* — случай, когда система хорошо обрабатывает примеры из обучающей выборки, но плохо справляется с примерами из тестовой.
Дабы минимизировать среднеквадратическую ошибку был использован алгоритм оптимизации со скоростью обучения 1 х 10-4.
Сети проходили этап тренировки не дольше 50 эпох (циклы обратного распространения). Для каждого случая тренировка повторялась 10 раз для того, чтобы собрать статистические данные точности обучения системы.
Все DNN были реализованы на базе одного графического процессора NVIDIA GeForce GTX 1080Ti при помощи библиотеки Python TensorFlow 1.5.
Результаты исследования
Реконструкция
Первым параметром, который решили подробнее рассмотреть ученые, стала способность системы реконструировать входные данные.

На изображении выше представлены результаты реконструкции цифр (0…9), после прохождения данных через волокно длиной 0.1 м, 10 м и 1000 м.
Как мы видим, результат процедуры очень точный, что подтверждает способность системы U-net вычленять предельные отличительные особенности будущего изображения.
Также была проверена и степень точности реконструкции. Этот показатель уменьшается с увеличением длины волокна с 96.9% (0.1 м) до 90.0% (1000 м).
Снижение точности связано с тем, что при длине волокна в 1 км, в нем возникают температурные неоднородности (расширение материала из-за тепла и/или изменение показателя преломления), которые изменяют оптический путь сигнала. Эти процессы приводят к тому, что рисунок спекла на дистальном конце становится нестабильным, от чего его сложнее реконструировать в необходимое изображение.
Исследователи отмечают, что внешнее воздействие на волокно также снижает степень точности реконструкции изображений. Посему при дальнейшем совершенствовании системы оптоволокно должно быть обеспечено термоизоляцией и изотермической средой для достижения максимального уровня точности реконструкции.
Процедура реконструкции также отлично нивелирует артефакты на обрабатываемом изображении.

К примеру, система вычленяет изображение (2а) с дистального спекла (2g), параллельно убирая дефекты, проецируемые на проксимальную грань волокна (2с и 2е). Кроме того, система старается ликвидировать артефакты, возникшие ввиду загрязненности или дефектов образца или структурных неточностей самого волокна.
Класификация цирф-образцов
Воссоздать изображение система может, а точность этого процесса весьма впечатляюща. Теперь перейдем к анализу того, насколько точно система способна определить где какое изображение (цифра), то есть классифицировать данные после их реконструкции.

С графика и таблицы выше видно, что точность классификации снижается при увеличении длины задействованного в передаче волокна. Подобная тенденция была и с точностью реконструкции. Независимо от того, амплитудная модель или фазовая, точность падает. При 2 см волокна — точность 90%. Это хороший показатель, но уж слишком короткое волокно. А вот при длине в 1 км точность падает до 30%. Исследователи связывают это с увеличением потерь рассеяния, связностью мод и дрейфом дистального спекла. Все эти «помехи» вызваны увеличением длины волокна.
Изменения дистального спекла
Запись была сделана с частотой кадров 83 fps. В качестве эксперимента по волокну в 1 км было передано пустое изображение.
(а) и (b) — 2 кадра, взятые из записи выше, (с) — их сравнение.
Эти кадры были записаны с разницей в 2 секунды. И как мы видим на изображении (с), разница между ними весьма существенна. Подобные резкие изменения спекла могут быть связаны с температурными флюктуациями окружающей среды либо воздушными потоками над устройством (изображение №1), что может вызывать небольшие возмущения волокна. Но когда длина волокна увеличивается, то сила таких возмущений становится ощутима.
Получается, что вся работа системы будет напрасна из-за этих «помех». Однако ученых не останавливают подобные сложности, а наоборот подстегивают их к размышлениям.
Было решено провести исследование смещения спеклов и как они влияют на точность классификации изображений. Для этого сеть VGG обучалась на базе 10 000 образцов (половины из имеющихся), далее проводилось тестирование, но уже с другой половиной образцов. Процесс повторяли, меняя 2 группы образцов местами. Результаты показали, что значительных изменений в точности классификации нет, поскольку смещение спеклов не случайно, а это значит, что ИНС способна его изучить, запомнить и определить в процессе работы.
Разница между амплитудной и фазовой модуляцией была незначительна. При длине волокна 10 м и фазовой модуляции классификация была чуть лучше, чем при амплитудной модуляции. Это обусловленно более равномерным распределением света по модам оптоволокна. При амплитудной модуляции число задействованных в передаче мод ограничено ввиду выборочного пространственного возбуждения волокон.
Если рассматривать вариант волокна длинной 1 км, то амплитудная модуляция уже превосходит фазовую. Когда свет проходит через длинное оптоволокно, в передаче информации задействованы все моды сразу.
Матрицы ошибок (матрицы путаницы)
Дабы улучшить точность классификации, ИНС была обучена еще и с помощью уже реконструированных образцов. Также были применены матрицы ошибок, что значительно улучшило точность классификации.
К примеру, в случае волокна длиной 1 км существует путаница между цифрами 4 и 9, а также между 3, 5, 6 и 8.
Для подтверждения стоит просто взглянуть на результаты реконструкции.
Цифры 4 и 9
Цифры 3, 5, 6 и 8

Графики выше показывают изменения точности классификации изображений с течением времени:
а — 10 м волокна и дистальные спеклы;
b — 10 м волокна и реконструированные изображения;
с — 1 км волокна и дистальные спеклы;
d — 1 км волокна и реконструированные изображения.
Для детального ознакомления с нюансами исследования настоятельно рекомендую взглянуть на доклад ученых. На этой же странице доступна и PDF-версия (кнопочка «Get PDF»).
Эпилог
Данное исследование показало отличные результаты, что говорит о будущем его развитии и практической реализации. Вышеописанные методики могут быть применены для телекоммуникаций (дешифровка в мультиплексировании) и даже в медицине (эндоскопия).
Подсчитав временные затраты, ученые выявили, что большая их часть уходит на подготовку системы, точнее на ее обучение. А это говорит о том, что уже обученная система может выполнять свои функции невероятно быстро, вплоть до миллисекунд. Единственным ограничением станет мощность аппаратного обеспечения.
Конечно, еще немало придется изучить в области искусственных нейронных сетей на базе глубокого обучения. Но их полезность видна уже сейчас. Совершенствование имеющихся систем, каким бы не было их применение, такое же важное занятие, как и создание новых. Ведь не всегда нужно изобретать колесо, если можно просто улучшить его. Главное, как показала практика, мыслить нестандартно, учиться на своих и чужих ошибках, ставить перед собой порой невыполнимые задачи и верить в свои силы. Если идея может принести пользу человечеству, она должна быть реализована.
- Источник(и):
- Войдите на сайт для отправки комментариев