Патриотичный ИИ, непатриотичный автор
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Автор: Максим Губин. Каждый желающий уже успел понакручивать промты Шедевруму и Kandinsky 2.1, пожаловаться на жутковатые результаты (сами виноваты), или просто сомнительные, с точки зрения русского языка, ассоциации нейросети. Но, только ещё не я. Мне ещё есть что сказать, рассказать, а точнее — сделать!
Итак, статья про три вещи:
- Почему вывод наших нейрохудожников так отдаёт англичанкой.
- Как исторически связаны MidJourney, Stable Diffusion и ChatGPT?
- Как подружить AWS с русскими доменами, и чтобы всё за тебя сделала машина.
И самое главное — моя попытка изменить ситуацию делом. Поехали!
Предисловие
Начну с того, что я — огромный энтузиаст всего, что связано с LLM и GenAI. Кое-где даже вышло внедрить LLM для анализа огромных металлургических стандартов и логов, ещё до того как это стало мейнстримом.
Я постоянный пользователь ChatGPT4 при написании кода, документации, текстов и тикетов. Использую MidJourney и StableDiffusion для генерации оформления и просто для создания мемов для жены:
«Нет ничего лучше, чем покушать поной за сериалом»
Однако, меня все время терзал назойливый червячок: почему везде мне приходится использовать только английский язык? И если для программирования это уже как-то стало нормой (1С разработчики, извините, мы говорим про настоящее программирование), то как так вышло, что и с лингвистическими моделями мне приходится на нём разговаривать?
Особенно утомляло составлять описания картинок для Dall-E и MidJourney. Раньше я думал, что у меня совершенно свободное владение языком, а как дело дошло до описания тонких визуальных нюансов, так, словно, через кисель протискиваюсь.
И тут я обнаружил, что у нас, оказывается, есть решения на русском.
Насколько глубока кроличья нора
Буду краток. Все уже успели посмотреть Шедеврум, покудахтать головой, что как же так, почему повсюду американские флаги, да еще и цензура в неправильную сторону повернута.
Очевидно, что все это натренировано на англоязычных базах, либо с минимальным вхождением русского. Но почему? Неужели нельзя составить свою базу? Midjourney всего пару годиков, неужели не догоним?
Сначала надо ответить на главный вопрос — откуда взялись эти данные, сколько времени ушло на их подготовку, допущения и каких объемах информации вообще идет речь?
Вопрос получился чуть-чуть не один, но пускай. Итак, история.
Откуда ноги растут
Вы обратили внимание, что MidJourney, Stable Diffusion (Stability AI), Imagen (Google), Dall-E 2, все как-то появились примерно одновременно и работали одинаково хреново на примерно одном уровне качества и имели практически общие болячки?
Нет, дело не в том, что великие умы думают одинаково, это просто датасет у них был общий.
- Источник(и):
- Войдите на сайт для отправки комментариев