Патриотичный ИИ, непатриотичный автор

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Автор: Максим Губин. Каждый желающий уже успел понакручивать промты Шедевруму и Kandinsky 2.1, пожаловаться на жутковатые результаты (сами виноваты), или просто сомнительные, с точки зрения русского языка, ассоциации нейросети. Но, только ещё не я. Мне ещё есть что сказать, рассказать, а точнее — сделать!

Итак, статья про три вещи:

  • Почему вывод наших нейрохудожников так отдаёт англичанкой.
  • Как исторически связаны MidJourney, Stable Diffusion и ChatGPT?
  • Как подружить AWS с русскими доменами, и чтобы всё за тебя сделала машина.

И самое главное — моя попытка изменить ситуацию делом. Поехали!

Предисловие

Начну с того, что я — огромный энтузиаст всего, что связано с LLM и GenAI. Кое-где даже вышло внедрить LLM для анализа огромных металлургических стандартов и логов, ещё до того как это стало мейнстримом.

Я постоянный пользователь ChatGPT4 при написании кода, документации, текстов и тикетов. Использую MidJourney и StableDiffusion для генерации оформления и просто для создания мемов для жены:

ii1.png«Нет ничего лучше, чем покушать поной за сериалом»

Однако, меня все время терзал назойливый червячок: почему везде мне приходится использовать только английский язык? И если для программирования это уже как-то стало нормой (1С разработчики, извините, мы говорим про настоящее программирование), то как так вышло, что и с лингвистическими моделями мне приходится на нём разговаривать?

Особенно утомляло составлять описания картинок для Dall-E и MidJourney. Раньше я думал, что у меня совершенно свободное владение языком, а как дело дошло до описания тонких визуальных нюансов, так, словно, через кисель протискиваюсь.

И тут я обнаружил, что у нас, оказывается, есть решения на русском.

Насколько глубока кроличья нора

Буду краток. Все уже успели посмотреть Шедеврум, покудахтать головой, что как же так, почему повсюду американские флаги, да еще и цензура в неправильную сторону повернута.

Очевидно, что все это натренировано на англоязычных базах, либо с минимальным вхождением русского. Но почему? Неужели нельзя составить свою базу? Midjourney всего пару годиков, неужели не догоним?

Сначала надо ответить на главный вопрос — откуда взялись эти данные, сколько времени ушло на их подготовку, допущения и каких объемах информации вообще идет речь?

Вопрос получился чуть-чуть не один, но пускай. Итак, история.

Откуда ноги растут

Вы обратили внимание, что MidJourney, Stable Diffusion (Stability AI), Imagen (Google), Dall-E 2, все как-то появились примерно одновременно и работали одинаково хреново на примерно одном уровне качества и имели практически общие болячки?

Нет, дело не в том, что великие умы думают одинаково, это просто датасет у них был общий.

Подробнее
Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

Хабр