Мир против интентов

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Автор: Алексей Киселёв. Я давно собирался и наконец-то решился высказать публично и доказать одну крамольную мысль. Датасайентисты из области NLU и NLP могут заранее готовит кирпичи, чтобы швырнуть ими в меня. Будет много жареного!

Начнём с главного – мир ошибается. Де факто! Диалоговые технологии развиваются не в том направлении и не теми темпами. Сайентисты научили алгоритмы превращать звук голоса в текст, а текст обратно в слышимую речь. Но между этими двумя частями находится задача понимания смысла сказанного – того, что было заложено в произнесённый текст. Порой двусмысленное и даже трёсмысленное.

По сути – ту часть, которая является мозгом всей системы не могут создать. “Рот” и “уши” сделать сумели, а к голове “прикрепить” их не получается. Вернее, то что подают за решение, решением не является. То что выдают за современные технологии IT-гиганты такой “детский сад”, что мама дорогая! Как это не стыдно выкладывать в мир таким компаниям как Гугл, Майкрософт и Яндекс. Примитивизм и убогость голосовых навыков просто удручает.

А причина, почему эту задачку не могут решить ИТ-монстры, проста. Решение лежит не в области программирования, а потому должно решаться не программистами, а людьми с совсем другими компетенциями. Но почему-то в нашем мире есть стойкое убеждение, что компьютерщики это некие волшебники, способные придумать и создать решение для любой задачи или проблемы.

Но ведь когда у нас болит зуб, мы же не идём в IT-отдел, чтобы нам там напрограммировали какую-то фичу, от которой перестанут болеть зубы. Хотя было бы прикольно жить в мире, где всё устроено именно так. Но в нашем мире всё по-другому. С подобными проблемами с зубами мы почему-то обращаемся к профильному специалисту. Так почему же с задачей распознавания семантики идут к программистам. И программисты расчехляя scikit-learn и pandas, обещают, что к вечеру всё нашаманят. И самое удивительное они же на полном серьёзе берутся за решение этой задачи. В результате мы получаем то, что, например, называется Яндекс.Алисой или Гугл.Асисстентом. Для аборигенов, впервые попавших в цивилизацию это может выглядеть как чудо, но для людей, рождённых с мобилой в руке это воспринимается как нечто странное.

intenty1.png

Спрограммировать базу данных, пользовательский интерфейс, настроить потоки коммуникаций – всё это задачи с очевидными решениями. Конечно, они включают вариативность и каждый разработчик создаст какое-то своё видение. Но сами эти задачи имеют понятное и очевидное решение. Разработка любой CRM – это принятие серии очевидных решений. А вот задача создания эмулятора работы мозга это уже задача без очевидных решений. И даже не то, чтобы без очевидных, а в принципе задача без решений. Вообще непонятно как к ней подступиться. Человечество знает лишь физиологическое устройство мозга, а не ментальные принципы его функционирования. Скопировать решение, блин, неоткуда!

В результате голосовые навыки от наших братьев-разработчиков, это в принципе ахтунг какой-то! Я бы ещё смирился, если бы это было творением рук первоклассника на уроках информатики, но ведь это же взрослые дяденьки делают! Как такое может быть. Это что-то уровня плинтуса. В принципе, школьники младших классов на уроках информатики создают не хуже. Кто же мне объяснит, почему мир признал, что это достойный и приемлемый уровень?!

Отчего такой низкий уровень развития технологий распознавания СМЫСЛА сказанного или написанного? Почему я не могу сказать голосовому ассистенту так же как своему другу – любую фразу. Человек меня поймёт, а ассистент поймёт только, если я буду следовать по заранее прописанному скрипту. И шаг влево, шаг вправо карается непониманием. И как же быть, если люди с рождения привыкли общаться друг с другом в свободном режиме, а не по заранее прописанным сценариям.

Люди ведь друг с другом не скриптами общаются! Как это почему-то хотят представить датасаентисты, создающие всякие а-ля GPT-трансформеры… Или всё-таки скриптами и я чего-то упустил об этом мире?!!!

intenty2.png

Берусь высказать мнение, которое все высказать открыто боятся… или стесняются.

Подробнее
Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (1 vote)
Источник(и):

Хабр