Компьютерное зрение: как за нами наблюдает ИИ

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Недавно мы рассказывали о том, как нас анализируют в кинотеатрах с помощью технологии компьютерного зрения: эмоции, жесты и вот это всё. Сегодня публикуем разговор с нашим коллегой из подразделения Microsoft Research. Он занимается созданием того самого зрения. Под катом подробности о развитии технологии, немного о GDPR, а также о сферах применения. Присоединяйтесь!

С технической точки зрения, эксперты по компьютерному зрению «создают алгоритмы и системы для автоматического анализа изображений и извлечения информации из видимого мира». С точки зрения непрофессионала, они создают машины, которые могут видеть. Именно этим занимаются главный научный сотрудник и руководитель научно-исследовательского отдела доктор Ган Хуа (Gang Hua) и команда экспертов по компьютерному зрению. Для таких устройств, как персональные роботы, беспилотные автомобили и дроны, с которыми мы сталкиваемся все чаще в повседневной жизни, зрение очень важно.

Сегодня доктор Хуа расскажет нам о том, как последние достижения в области ИИ и машинного обучения помогли усовершенствовать технологии распознавания изображений и «понимания» видео, а также поспособствовали развитию в области искусства. Он также объяснит, в чем заключается суть распределенного ансамблевого подхода к активному обучению, в рамках которого люди и машины вместе работают в лаборатории над созданием систем компьютерного зрения, способных видеть и распознавать открытый мир.

Ган Хуа, главный научный сотрудник и руководитель научно-исследовательского отдела. Фотография любезно предоставлена Maryatt Photography.

Интервью

Если мы оглянемся на десять-пятнадцать лет назад, то увидим, что в сообществе специалистов по компьютерному зрению было больше разнообразия. Чтобы рассмотреть проблему с разных сторон и найти ее решение, применялись всевозможные методы машинного обучения и знания из различных областей, таких как физика и оптика. Мы подчеркиваем важность разнообразия во всех сферах деятельности, поэтому я думаю, что научное сообщество выиграет, если у нас будет больше различных точек зрения.

Мы знакомим вас с передовыми исследованиями в области технологий и учеными, стоящим за ними. С технической точки зрения, эксперты по компьютерному зрению «создают алгоритмы и системы для автоматического анализа изображений и извлечения информации из видимого мира». С точки зрения непрофессионала, они создают машины, которые могут видеть. Именно этим занимаются главный научный сотрудник и руководитель научно-исследовательского отдела доктор Ган Хуа и команда экспертов по компьютерному зрению. Для таких устройств, как персональные роботы, беспилотные автомобили и дроны, с которыми мы сталкиваемся все чаще в повседневной жизни, зрение очень важно.

Сегодня доктор Хуа расскажет нам о том, как последние достижения в области ИИ и машинного обучения помогли усовершенствовать технологии распознавания изображений и «понимания» видео, а также поспособствовали развитию в области искусства. Он также объяснит, в чем заключается суть распределенного ансамблевого подхода к активному обучению, в рамках которого люди и машины вместе работают в лаборатории над созданием систем компьютерного зрения, способных видеть и распознавать открытый мир. Об этом и многом другом — в новом выпуске подкаста Microsoft Research.

Вы – главный научный сотрудник и руководитель научно-исследовательского отдела в MSR (Microsoft Research), а ваша специализация – компьютерное зрение.

Да.

Если в общих чертах, то ради чего специалист по компьютерному зрению встает по утрам? Какова его главная цель?

Компьютерное зрение — относительно молодая область исследований. Если коротко, то мы пытаемся создать такие машины, которые смогут увидеть мир и воспринимать его так же, как человек. Говоря более техническим языком, информацию, которая поступает в компьютер в виде простых изображений и видео, можно представить как последовательность чисел. Мы хотим извлечь из этих чисел некие структуры, описывающие мир, некую семантическую информацию. Например, я могу сказать, что какая-то часть изображения соответствует кошке. А другая часть соответствует машине, я имею в виду интерпретацию подобного рода. Вот она, цель компьютерного зрения. Людям это кажется простой задачей, однако, чтобы научить этому компьютеры, нам пришлось проделать огромную работу за последние 10 лет. Впрочем, компьютерному зрению как области исследований уже 50 лет. И тем не менее нам предстоит решить еще много проблем.

Да. 5 лет назад вы говорили следующее, я перефразирую: «Почему после 30 лет исследований мы все еще работаем над проблемой распознавания лиц?» Расскажите, как вы ответили на этот вопрос тогда и что изменилось за это время.

Если отвечать с перспективы пятилетней давности, то я бы сказал, что за 30 лет, прошедших с момента начала исследований в области компьютерного зрения и распознавания лиц, мы достигли многого. Но по большей части речь о контролируемой среде, где при захвате лиц можно отрегулировать освещение, камеру, декорации и тому подобные вещи. Пять лет назад, когда мы начали больше работать в естественных условиях, в неконтролируемой обстановке, выяснилось, что существует огромный разрыв в точности распознавания. Однако за последние пять лет наше сообщество добилось большого прогресса благодаря использованию более совершенных методов глубокого обучения. Даже в области распознавания лиц в естественных условиях мы добились прогресса и действительно подошли к той черте, когда стало возможным применение этих технологии в различных коммерческих целях.

Получается, глубокое обучение действительно позволило за последние несколько лет добиться больших успехов в областях компьютерного зрения и распознавания изображений.

Верно.

Когда мы заговорили о разнице условий в полностью контролируемой и в непредсказуемой средах, мне вспомнились несколько ученых, гостей подкаста, которые отмечали, что компьютеры терпят неудачу, когда данные не достаточно полны… например, последовательность «собака, собака, собака, собака с тремя лапами» – компьютер начинает сомневаться, является ли последняя тоже собакой?

Да.

Ведь правда? Итак, что именно, недоступное ранее, методы глубокого обучения позволяют вам сегодня сделать в области распознания?

Это отличный вопрос. С точки зрения исследований, глубокое обучение открывает несколько возможностей. Во-первых, можно проводить комплексное обучение с целью определения верного представления семантического образа. Например, вернемся к собаке. Предположим, мы просматриваем различные фотографии собак, например, изображения размером 64×64 пикселя, где каждый пиксель может принять примерно двести пятьдесят разных значений. Если вдуматься, это огромное количество комбинаций. Но если говорить о собаке как о шаблоне, где пиксели коррелируют друг с другом, то количество комбинаций, соответствующих «собаке», будет гораздо меньше. С помощью комплексных методов глубокого обучения можно научить систему определять правильное числовое представление «собаки». Благодаря глубине структур мы можем создавать действительно сложные модели, способные осваивать большое количество данных для обучения. Таким образом, если мои данные для обучения охватывают все возможные варианты и представления шаблона, то в конце концов я смогу распознать его в более широком контексте, потому что рассмотрел почти все возможные комбинации. Это первое. Еще одна возможность глубокого обучения — это своего рода композиционное поведение. Есть слой структуры и слой представления, поэтому, когда информация или изображение попадают в глубокие сети и начинается извлечение низкоуровневых примитивных изображений, то постепенно модель может собрать из этих примитивных изображений семантические структуры все более и более высокой сложности. Алгоритмы глубокого обучения выявляют меньшие шаблоны, соответствующие более крупным шаблонам, и собирают их вместе, чтобы сформировать окончательный шаблон. Поэтому это очень мощный инструмент, особенно для задач визуального распознавания.

Итак, значит, основная тема конференции CVPR — это распознавание шаблонов компьютерным зрением.

Да, верно.

И распознавание шаблонов — это то, к чему действительно стремятся технологии.

Да, конечно. На самом деле, цель компьютерного зрения — уловить смысл в пикселях. Если говорить с технической точки зрения, то компьютеру нужно понять, что же собой представляет изображение, а мы получаем по нему определенный числовой или символьный результат. Например, числовой результат может представлять собой трехмерное облако точек, которое описывает структуру пространства или форму объекта. Также он может быть связан с некоторыми семантическими метками, такими как «собака» или «кошка», как я говорил ранее.

Понятно. Итак, давайте немного поговорим о метках. Интересной и важной особенностью процесса машинного обучения является тот факт, что компьютеру необходимо предоставлять как пиксели, так и метки.

Да, конечно.

Вы говорили о трех вещах, которые для вас наиболее интересны в контексте компьютерного зрения. Видео, лица, а также искусство и мультимедиа. Давайте поговорим о каждой из них по отдельности, а начнем с ваших текущих исследований, с того, что вы называете «пониманием» видео.

Да. Выражение «понимание видео» говорит само за себя. В качестве входящей информации мы вместо изображений используем видео. Здесь важно не только распознать пиксели, но и учитывать, как они двигаются. Для компьютерного зрения распознание изображений — это пространственная проблема. В случае с видео она становится пространственно-временной, потому что появляется третье – временное – измерение. И если взглянуть на многие реальные задачи, связанные с потоковым видео, будь то камеры наблюдения внутри помещений или дорожные камеры на шоссе, то суть в том, что объект движется в рамках постоянного потока кадров. И нам нужно выделить информацию из этого потока.

Подобные камеры создают огромный объем видеоматериала. Камеры безопасности, снимающие круглые сутки в супермаркетах и тому подобное. Какую пользу для людей вы можете извлечь из этих записей?

Моя команда работает над одним инкубационным проектом, в рамках которого мы создаем фундаментальную технологию. В рамках этого проекта мы пытаемся анализировать трафик на дорогах. В городах установлено огромное количество дорожных камер, однако большая часть записанного ими видео пропадает впустую. Тем не менее эти камеры могут оказаться полезными. Давайте рассмотрим один пример: вы хотите более эффективно управлять светофорами. Обычно смена красного и зеленого сигналов определяется установленным расписанием. Однако если бы я увидел, что по одному направлению движется намного меньше машин, чем по другим, то, чтобы оптимизировать движение, я мог бы подольше держать зеленый цвет включенным на перегруженных направлениях. Это только одно из применений.

Пожалуйста, воплотите эту идею!

Постараемся!

Кто из нас не стоял на красном сигнале светофора, хотя на зеленый по другому направлению почти никто не проезжал?

Вот именно!

Вот-вот, задаешься вопросом: почему мне приходится ждать?

Согласен. Такую технологию можно также применить в других случаях, например, когда у нас накопятся большие архивы видеозаписей. Предположим, граждане попросили проложить дополнительные велосипедные дорожки. Мы могли бы использовать видеоматериалы, проанализировать данные о дорожном движении, а затем решить, стоит ли в этом месте делать велосипедную дорожку. Внедрив эту технологию, мы могли бы существенно повлиять на транспортные потоки и помогли бы городам принимать подобные решения.

Я думаю, что это великолепная идея, потому что в большинстве случаев мы принимаем такие решения, основываясь на наших собственных идеях, а не на данных, посмотрев на которые мы могли бы сказать: «Эй, а знаете, вот тут велосипедная дорожка пришлась бы очень кстати. А здесь она только усложнит движение».

Совершенно верно. Иногда для этого используют другие датчики. Нанимают компанию, которая устанавливает на дорогах специальное оборудование. Но это экономически неэффективно. А ведь дорожные камеры уже установлены и просто висят без дела. Потоки видео уже доступны. Так ведь? Так почему бы не воспользоваться этим?

Согласна. Это отличный пример того, как можно применять машинное обучение и «понимание» видео.

Именно.

Итак, еще одна важная область применения — это распознавание лиц. Мы опять возвращаемся к вопросу «Почему мы все еще работаем над проблемой распознавания лиц?».

Именно так.

Кстати, такие технологии в некоторых случаях могут применяться очень интересным образом. Расскажите, что сейчас происходит в области распознавания лиц. Кто этим занимается и что нового?

Если оглянуться назад, то технология распознавания лиц изучалась Microsoft, когда я еще работал в Live Labs Research. Тогда мы создали первую библиотеку для распознавания лиц, которую могли использовать различные группы по разработке продуктов. Впервые эту технологию начали применять в Xbox. Тогда разработчики пытались использовать распознавание лиц для автоматического входа в систему. Думаю, это был первый случай. Со временем центр по изучению распознавания лиц сместился в Microsoft Research Asia, где у нас все еще работает группа исследователей, с которыми я сотрудничаю. Мы постоянно пытаемся расширить границы возможного. Теперь мы совместно работаем с техническими службами, которые помогают нам собирать больше данных. На основе этих данных мы обучаем более продвинутые модели. В последнее время мы сосредоточились на направлении исследований, которое называем «синтезом лиц с сохранением узнаваемости». Сообщество экспертов по глубокому обучению также достигло больших успехов. Они применяют глубокие сети для обучения генеративных моделей, которые могут моделировать распределение изображений, чтобы можно было извлекать из него данные, т. е. фактически синтезировать изображение. Так что можно создавать глубокие сети, создающие изображения. Но мы хотим продвинуться еще на шаг вперед. Мы хотим синтезировать лица. При этом мы хотим сохранить узнаваемость этих лиц. Наши алгоритмы не должны просто создавать произвольный набор лиц без какого-либо семантического значения. Предположим, мы хотим воссоздать лицо Бреда Питта. Нужно создать лицо, действительно похожее на него. Если нужно воссоздать лицо человека, которого я знаю, то результат должен быть точным.

То есть вы хотите сохранить узнаваемость лица, которое пытаетесь воссоздать?

Верно.

Кстати, мне интересно, будет ли эта технология работать продолжительное время, по мере старения человека, или придется постоянно обновлять базу с лицами?

Это очень хороший вопрос. В настоящее время мы проводим исследования для решения этой проблемы. На текущем уровне технологий все еще необходимо время от времени обновлять базу. Особенно, если лицо сильно изменилось. К примеру, если была сделана пластическая операция, современная система не сможет выдать правильный результат.

Подождите-ка, это не вы.

Да, совершенно не похоже. К этому вопросу можно подойти с нескольких сторон. Человеческие лица на самом деле не сильно меняются в промежутке между 17–18 годами и примерно 50. Но что происходит сразу после рождения? Лица детей сильно меняются, потому что растут кости, а также изменяются форма лица и кожа. Но как только человек вырастает и переходит в стадию зрелости, изменения начинают происходить очень медленно. Сейчас мы проводим исследования, в рамках которых разрабатываем модели процесса старения. Они помогут создать улучшенную систему распознавания лиц с учетом возраста. На самом деле это очень полезная технология, которую можно применить в правоохранительной сфере, например, для того, чтобы распознать похищенных много лет назад детей, которые…

Выглядят совсем по-другому.

Да, выглядят по-другому. Если бы умные алгоритмы распознавания лиц могли рассмотреть исходную фотографию…

И сказать, как они выглядели бы лет в 14, если они были похищены намного раньше, или что-то в таком духе?

Да-да, именно.

Это отличное применение. Давайте поговорим об еще одной области, которую вы активно изучаете — мультимедиа и искусство. Расскажите, как наука пересекается с искусством, а особенно о вашей работе в области глубокого переноса художественного стиля. Хорошо. Взглянем на потребности людей. В первую очередь нам нужна еда, вода и сон, не так ли? После того как базовые потребности удовлетворены, у человека проявляется сильное стремление к искусству…

И желание творить.

И создавать предметы искусства. В рамках этого направления исследований мы хотим связать компьютерное зрение с художественными объектами мультимедиа и искусства. Мы можем использовать компьютерное зрение, чтобы доставлять людям художественное наслаждение. В рамках отдельного исследовательского проекта, над которым мы работаем последние два года, мы создали последовательность алгоритмов, с помощью которых можно создать изображение в любом художественном стиле, если предоставлены образцы этого стиля. Например, мы можем создать изображение в стиле Ван Гога.

Ван Гога?

Да, или любого другого художника…

Ренуар или Моне… или Пикассо.

Да, любого из них. Любого, кого только сможете вспомнить…

Интересно. С помощью пикселей?

Да, с помощью пикселей. Это все также создается глубокими сетями с помощью некоторых технологий глубокого обучения, которые мы разработали.

Похоже, для этого исследования требуются знания из множества областей. Где вы находите специалистов, способных…

Я бы сказал, что в некотором смысле наша цель заключается в том, чтобы… Знаете, произведения искусства не всегда доступны для всех. Некоторые из художественных работ действительно очень дорогие. С помощью подобных цифровых технологий мы пытаемся сделать такие работы доступными для обычных людей.

Демократизировать их.

Да, демократизировать искусство, как вы и говорите.

Это впечатляет.

Наш алгоритм позволяет создавать четкую числовую модель каждого стиля. И мы даже можем смешивать их, если захотим создать новые стили. Это напоминает создание художественного пространства, где мы можем изучать промежуточные варианты и смотреть, как меняются приемы при переходе от одного художника к другому. И мы сможем даже взглянуть глубже и попытаться понять, что именно определяет стиль того или иного художника.

У меня особый интерес вызывает то, что, с одной стороны, мы говорим о работе с цифрами: информатике, алгоритмах, математике. А с другой стороны, речь об искусстве — гораздо более метафизической категории. И все же вы объединили их, и это показывает, что мозг ученого может иметь художественную сторону.

Именно. Я думаю, что самый важный используемый нами инструмент, который помог собрать все воедино — это статистика.

Интересно.

Все виды алгоритмов для машинного обучения на самом деле всего лишь собирают статистику по пикселям.

Мы уже говорили о технической стороне вопроса, но давайте еще немного углубимся в технические детали… В некоторых ваших недавно опубликованных работах – которые наши слушатели могут найти на веб-сайте MSR, а также на вашем сайте – вы говорили о новом распределенном ансамблевом подходе к активному обучению. Расскажите нам, в чем особенность этого подхода и какие преимущества он дает?

Замечательный вопрос. Когда мы говорим об активном обучении, мы имеем в виду процесс, в котором участвует некий человек-надзиратель. В традиционном активном обучении у нас есть… обучающаяся машина. Эта машина может разумно выбирать некие образцы данных, а затем попросить человека-надзирателя предоставить дополнительные данные. Обучающаяся машина выбирает образцы и просит человека-надзирателя предоставить, например, метку для изображения. Процесс ансамблевого машинного обучения гораздо сложнее. Мы пытаемся осуществить активное обучение в краудсорсинговой среде. Рассмотрим, например, платформу Amazon Mechanical Turk. Люди отправляют на нее свои данные и просят других пользователей присвоить этим данным метку. Однако если не быть осторожным и не следить за процессом, то результат может получиться прескверный. Вы не сможете использовать полученные метки. Чтобы решить подобные проблемы, мы пытаемся достичь двух целей. Во-первых, мы хотим разумно распределить данные, чтобы сделать расстановку меток как можно более экономически выгодной. Во-вторых, нам нужно оценить качество проведенной работы, чтобы впоследствии пользователь мог отправлять свои данные только хорошим работникам. Вот так работает наша модель. У нас получилась распределенная ансамблевая модель. Каждый краудсорсинговый работник связан с одной из обучающихся машин. Мы также пытаемся проводить статистическую проверку по всем моделям, чтобы сразу получать качественную оценку для каждого из работников. В этом случае мы сможем использовать модель не только для того, чтобы выбирать образцы, но и чтобы отправлять данные для расстановки меток лучшим работникам. Таким образом можно быстро получить хорошую модель.

Но это приводит нас к проблеме, связанной с необходимостью взаимодействия человека и машин в рамках модели. Нужна некая система регулирования таких взаимодействий. Помимо того, о чем вы уже рассказали, как еще совместная работа людей и машин помогает решить проблемы контроля качества?

Я долго думал об этой проблеме, главным образом в контексте робототехники. Любая интеллектуальная система, если она не находится в условиях полностью замкнутого мира, может работать автономно. Но как только она выходит в открытый мир (как современные интеллектуальные системы на основе машинного обучения), мы замечаем, что системе не всегда удается справиться с возникающими проблемами, потому что часто происходит что-то, с чем она раньше не сталкивалась.

И появляются переменные, о которых вы не подумали.

Именно. Я задумался о том, как привлечь людей к процессу, чтобы они могли помогать машине, когда это необходимо, и при этом сформировать некий механизм, который помог бы ей справиться с аналогичными ситуациями в будущем. Я приведу очень конкретный пример. Когда я работал в Технологическом институте Стивенса, то занимался проектом от NIH, который мы назвали ко-роботами (co-robots).

Какими-какими роботами?

Ко-роботами. По сути это были роботизированные инвалидные коляски. Идея состояла в том, чтобы управлять коляской с помощью движений головы. На голове устанавливалась специальная камера, которая позволяла отслеживать ее положение. И если человек сохранял хотя бы подвижность шеи, то уже мог самостоятельно управлять коляской. Однако нам не было нужно, чтобы пользователь постоянно делал это. Предположим, что человек находится дома. Мы хотели, чтобы робот-коляска по большей части самостоятельно перемещал пользователя, лишь получив указание, куда направиться. Например, если пользователь захотел попасть в другую комнату, то робот самостоятельно должен туда добраться. Но что если он столкнется с ситуацией, с которой не знает, как справиться? Например, не знает, как обойти препятствие? В такой ситуации робот должен сам попросить человека принять управление на себя. Тогда пользователь начнет управлять роботом и разрешит трудную для машины ситуацию. Возможно, в следующий раз, когда этот робот столкнется с похожими трудностями, он сможет сам с ними справиться.

Чем вы занимались до работы в Microsoft Research и как оказались здесь?

Я работаю в Microsoft второй раз. Я уже упоминал, что работал здесь в 2006–2009 годах в лаборатории под названием Live Labs. Это был мой первый раз. Тогда я создал первую библиотеку распознавания лиц. После этого мне захотелось изучить внешний мир, так сказать. Я поработал в Nokia Research, IBM Research и в конце концов остался в Технологическом институте Стивенса в качестве преподавателя…

Это в Нью-Джерси, верно?

Да, это в Нью-Джерси, на восточном побережье. Я вернулся в Microsoft Research в 2015 году и начал работать в лаборатории в Пекине. Моя семья оставалась здесь, поэтому в 2017 году я перевелся обратно.

Значит после Пекина вы оказались в Редмонде. Как это произошло?

Моя семья всегда жила в Сиэтле. Лаборатория Microsoft Research в Пекине — замечательное место. Мне там очень нравилось. Одно из уникальных преимуществ той лаборатории — невероятно динамичная программа стажировки. Круглый год в лаборатории работает несколько сотен стажеров. И все они тесно сотрудничают со своими наставниками. Очень динамичная среда. Я немного поэкспериментировал вдали от дома, но моя семья жила в Сиэтле, так что, когда Intelligent Group создала здесь команду по компьютерному зрению, я к ней присоединился.

И вы снова живете в Сиэтле.

Да.

Я задаю этот вопрос всем ученым, которые приходят на подкаст, и вам его тоже задам. Есть ли что-то в вашей работе, о чем мы должны беспокоиться? Я имею ввиду есть ли что-то, что мешает вам уснуть по ночам?

Я бы сказал, что конфиденциальность является самой большой проблемой, особенно когда мы говорим о компьютерном зрении. По всему миру разбросаны сотни миллионов камер. Они повсюду: в общественных местах и в зданиях. Если учесть, с какой скоростью развиваются технологии, то предположения о том, что можно отследить человека, где бы он не находился, уже не являются чем-то из области научной фантастики. У всего есть две стороны. Да, с одной стороны, компьютерное зрение может нам помочь, например, справляться с преступностью. Но для рядовых граждан оно представляет огромные риски, связанные с конфиденциальностью.

Что можно… я задаю этот вопрос, потому что он заставляет людей задуматься: Так, у меня есть эта мощная технология, как она может навредить? Итак, что можно сделать, какие законы принять, чтобы решить эту проблему?

Microsoft очень серьезно относится к общему регламенту по защите данных (GDPR). И я думаю, что это здорово, ведь этот механизм призван обеспечить соответствие всего, что мы производим, определенным правилам. С другой стороны, необходимо искать баланс между практичностью технологии и безопасностью или конфиденциальностью. Когда вы используете какой-нибудь онлайн-сервис, все ваши действия оставляют след. Это способ сделать вашу жизнь проще в будущем. Если вы хотите удобства, иногда приходится раскрывать какую-то часть информации. Но никто не хочет предоставлять всю информацию о себе, не так ли? Это сложный вопрос, и ответ на него неоднозначен, он выходит за рамки черного и белого. Нужно тщательно контролировать происходящее. Мы должны получать только ту информацию, которая необходима для лучшего обслуживания клиента, а не иметь неограниченный доступ к его личным данным и той информации, которой он не хотел бы делиться…

Да, сегодня важно получить разрешение от пользователя. Он должен иметь возможность сказать: «Я не против этого. Но вот это мне не нравится».

Да, верно.

Ган, в завершении нашего разговора поделитесь с нами своим представлением о том, что ждет новое поколение специалистов в области компьютерного зрения в ближайшем будущем. Разрешение каких больших проблем может привести к невероятному прорыву? Над чем предстоит работать в ближайшие 10 лет?

Это отличный и очень глубокий вопрос. Действительно существуют большие проблемы, которые нам предстоит решить. Прямо сейчас специалисты в области компьютерного зрения во многом полагаются на статистические методы машинного обучения. Мы можем обучать модели распознавания, способные достичь больших успехов. Но этот процесс до сих пор во многом основан на визуальных признаках. Нам необходимо лучше понять процесс распознавания и фундаментальные принципы компьютерного зрения, такие как трехмерная геометрия. Есть и другие моменты, особенно, когда речь идет о «понимании» видео. Это комплексная проблема, для решения которой необходимо работать с пространственно-временными категориями и учитывать концепции познания, такие как причинное следствие. Если что-то случилось, то что действительно стало этому причиной? Методы машинного обучения в основном работают с корреляцией между данными. Корреляция и причинность — две совершенно разные концепции. Я думаю, стоит поработать над этим. Существуют и некоторые другие фундаментальные проблемы, такие как обучение на основе малых данных и языка, которые в перспективе необходимо решить. Обратите внимание на то, как обучаются люди. Мы учимся на опыте, но есть еще один способ. Мы учимся с помощью языка. Мы учимся в процессе разговора. Например, сегодня я уже узнал от вас много нового…

А я от вас.

Вот именно. Это очень компактный поток информации. Сейчас мы уделяем наибольшее внимание глубокому обучению. Но если вернуться на 10–15 лет назад, то можно заметить, что в сообществе специалистов по компьютерному зрению было больше разнообразия. Чтобы рассмотреть проблему с разных сторон и найти ее решение, применялись всевозможные методы машинного обучения и знания из различных областей, таких как физика и оптика. Мы подчеркиваем важность разнообразия во всех сферах деятельности, поэтому я думаю, что научное сообщество выиграет, если у нас будет больше различных точек зрения.

Это очень хороший совет. Сообщество исследователей приветствует новое поколение ученых, людей, мыслящих широко и в разных направлениях, которые смогут подготовить почву для следующего большого прорыва.

Да, именно так!

Чтобы узнать больше о докторе Ган Хуа, а также об удивительных достижениях в области компьютерного зрения, посетите наш сайт: Microsoft.com/research

Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

habr.com