YandexGPT в Браузере: как мы учили модель суммаризировать статьи

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Блог компании Яндекс. Автор: Сергей Юдин. Неделю назад на сайте 300.ya.ru мы продемонстрировали возможности языковой модели YandexGPT применительно к задаче суммаризации текстов. С тех пор многое изменилось: мы обучили новую, более качественную модель, в пересказах которой в 4 раза меньше ошибок. А сегодня мы внедрили её в Яндекс Браузер.

Может показаться, что мы просто взяли ту же модель, о которой уже рассказывали сообществу на примере Алисы, и прикрутили к ней кнопку в Браузере. Но не всё так просто. Да, наша базовая модель уже понимала, что такое суммаризация в общих чертах. Но для нас было важно добиться результата в нужной нам форме и с предсказуемым качеством. И вот тут-то начинаются нюансы.

Сегодня поделюсь не столько новостью, сколько нашим опытом и советами из области дообучения моделей и промпт-инжиниринга. Расскажу, через что пришлось пройти нашей команде, чтобы модель начала делать то, что от неё ожидают.

pereskaz.png

Коротко — о продукте

Для начала немного расскажу о том, как краткий пересказ работает в Яндекс Браузере. Это позволит понять, какие продуктовые требования предъявлялись к языковой модели.

Итак, с чего всё начиналось. Наше основное желание — экономить людям время. Поэтому мы решили сделать так, чтобы пользователь браузера в один клик мог увидеть краткий пересказ статьи, новости, обзора или исследования. Причём пересказ должен укладываться примерно в тысячу символов. В этом случае пользователь, которому попался материал на 30 тыс. знаков (наш текущий лимит, который мы планируем поднять), сможет меньше чем за минуту понять суть текста и решить, нужно ли читать его прямо сейчас.

Идём дальше. Краткий пересказ может выглядеть по-разному. Например, он мог бы выглядеть как короткая версия исходной статьи. Но мы осознанно пошли в сторону списка тезисов. У такого формата множество достоинств: по списку удобно пробежаться глазами, он подходит и для новостей, и для других видов текстов. Кроме того, мы считаем, что краткий пересказ должен экономить время и помогать принять решение о чтении, а не пытаться заменить статью.

И ещё кое-что. Мы решили, что важно дать возможность делиться кратким пересказом — так люди смогут помогать друг другу. А ещё так будет проще присылать нам очевидные ошибки суммаризации, которые помогут совершенствовать технологию. Поэтому мы предоставили пользователям возможность делиться краткими пересказами, которые будут жить на сайте 300.ya.ru по своим уникальным ссылкам.

Пожалуй, это главное, что нужно знать о продуктовой стороне вопроса. Теперь перейдём к технологической.

Подробнее
Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

Хабр