Блеск и нищета больших языковых моделей

Автор: Алексей Кравцов. Обойдемся без долгих вступлений и глубоких философствований о современных тенденциях в развитии генеративных моделей в целом и LLM (большие языковые модели) моделей в частности. Многие об этом знают не понаслышке, а кто не знает — тому ниже сказанное просто не интересно.

Все в трепетном ожидании прорыва. Даже нет, ПРОРЫВА! LLM смогли нас удивить за последний год, даже вошли в нашу жизнь и заняли свое почетное место. На горизонте замаячил AGI (общий искусственный интеллект), который придет, взмахнет волшебной палочкой и изменит всю нашу жизнь. Не придет. Пока не придет и не изменит. Да, скоро нас ожидает модель GPT-5, которая, как обещают разработчики, будет на голову выше 4 версии. Выходят мультимодальные модели. Но это все далеко не AGI.

Пока на горизонте отчетливо замаячил только тупик. Уже сейчас начинают проскакивать тревожные сообщения, что для новых моделей не хватает данных для обучения. Модели растут, раздуваются как мыльные пузыри, поглощая огромные вычислительные мощности, гигаватты энергии и терабайты информации, но по прежнему совершают многочисленные фактические и логические ошибки, которые не допустил бы даже человек с интеллектом ниже среднего, хотя сами модели по тестам претендуют как раз таки на средний уровень.

Казалось бы, в чем проблема? Утроим число параметров, добавим сотню терабайт обучающей информации и все. Но это не помогает, размеры моделей вырастают кратно, а качество генерации улучшается лишь на проценты. Приходится лепить костыли, создающие иллюзию думающей машины. Но вот беда, машина как не думала, так и не думает. Она линейна как пищеварительный тракт — от входа к выходу, результат выдачи не анализируется, не обдумывается, а генерируется. Она не умеет самообучаться, ее надо учить. На каждое действие нужно показать ей результат, чтобы запомнила.

Современные LLM модели не анализируют уже известную им информацию, чтобы сделать новые выводы, не оперируют фактами. Они получают информацию и усредняют ее. Единственный путь их роста — количественный. Но для такой модели нужно очень много информации, причем информации качественной, а ее нет, она заканчивается и негде ее взять. Амбиции разработчиков уперлись в стеклянный потолок. Человечество генерирует много информации, но это преимущественно нерелевантная для обучения информация, цифровой шум, усредняя который мы получаем LLM модель со способностями среднестатистического обывателя с iq=100. Несомненно очень эрудированного, знающего все или почти все (если не соврет), но в интеллектуальном плане — обывателя.

Да, можно потратить миллионы человеко-часов, обработать, отфильтровать обучающую информацию, это повысит качество моделей, но прорыва не будет. Сверхинтеллекта, открывающего тайны вселенной, мы не получим. Скорее получим среднестатистического выхолощенного эрудита с элементами занудства.

Проблема прежде всего в линейной, последовательной структуре современных нейронных сетей, служащих технологическим фундаментом ИИ. Искусственные нейронные сети имеют вход и имеют выход, между которыми находятся последовательно соединенные внутренние слои. С одной стороны это принципиально лишает их возможностей для самоанализа, рефлексии, не используя дополнительных архитектурных конструкций. Искусственная нейронная сеть не может что-то «обдумать», сделать самостоятельные выводы, она сразу генерирует результат.

Эта линейная структура, в свою очередь, определяется используемым подходом к обучению: обратное распространение ошибки от выхода ко входу. Таким образом, проблема фундаментальна и не имеет другого решения, кроме как переписать всю архитектуру искусственных нейронных сетей. На текущем этапе эта проблема решается костылями, которыми пытаются контролировать результат генерации, что в итоге будет лишь усугублять проблему, наслаивая все новые и новые проблемы, поскольку вместо упрощения структуры, мы получаем усложнение с неизбежным внесением ошибок с непредсказуемым результатом.

Другой значимый недостаток существующей архитектуры — неспособность к самообучению в процессе функционирования. Модель статична в рамках весов, полученных на этапе обучения. Процессы обучения и генерации взаимоисключающие.

Чтобы выйти из технологического тупика необходима разработка нового типа искусственного интеллекта, более приближенного к архитектуре биологического мозга, причем не на уровне отдельно взятого нейрона, а на структурном уровне. Несомненно, LLM модели показали впечатляющие возможности, но фундаментально они не пригодны для создания общего интеллекта. Скорее их возможности будут использоваться для решения частных, периферийных задач, но ядром системы AGI они не станут.

Попытаюсь сформулировать требования к ядру подобной системы:

  1. Создание модели мира на основе получаемой информации. В определенной степени можно утверждать, что нынешняя архитектура трансформеров такую модель создает. Но, как уже говорилось выше, эта модель линейная, а потому в задачах создания AGI – бесполезная. Полученная модель мира должна быть полной, непротиворечивой, в идеале интерпретируемой и, что самое важное, быть не линейной, а самозамкнутой. Более того, модель должна принципиально быть способной обучаться без учителя, получая поток информации, анализируя, классифицируя ее на основе базового набора правил.
  2. Возможность симуляции. Это свойство достигается посредством самозамкнутости. AGI, если так можно выразиться, «живет» в созданной модели мира и использует ее в качестве критериев оценки всей поступающей информации и оценки всех потенциальных действий. Т.е. проводит симуляцию, оценивает последствия и принимает решения. Хотя по сути, если погрузиться в вопрос глубже, эта искусственная модель мира, существующая в динамике, и есть сам AGI.
  3. На архитектурном уровне решать задачи кратковременного и долговременного хранения фактологической информации внутри самой модели, не используя искусственные внешние конструкции в виде контекстных окон и им подобных.

Резюмируя, на данный момент предпосылок к созданию действительно сильного искусственного интеллекта нет, либо о них почти не известно. Существующие архитектурные решения для этого подходят весьма условно, требуя несоразмерно колоссальных энергетических и информационных затрат, которые мы не в состоянии обеспечить. Нужен принципиально новый подход, новая архитектура систем искусственного интеллекта, которая будет решать аналогичные задачи, но более рационально. Архитектура, которая будет интерпретируемой, а значит подконтрольной человеку.

Несомненно, вектор развития существующих систем понятен и прогресс будет продолжаться еще какое-то время по этому пути. Модели будут усложняться, требуя все больше ресурсов, пока окончательно не зайдут в тупик. Но это уже другая история.

Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

Хабр