Будущее индустрии ИИ стоит на бесплатной базе данных простого учителя школы

Перед небольшим загородным домом на окраине Гамбурга в северной Германии на почтовом ящике карандашом нацарапано единственное слово — «ЛАЙОН». Это единственный признак того, что этот дом принадлежит человеку, стоящему за огромными усилиями по сбору данных, и без которого тот бум искусственного интеллекта, который во всю силу происходит сейчас, мог бы и не случиться.

Этот человек — школьный учитель Кристоф Шуманн, а LAION (Large-scale AI Open Network «Крупномасштабная открытая сеть ИИ»), можно сказать, его хобби. Днём Шуманн преподает физику и информатику немецким подросткам, а вечером и по выходным — работает с небольшой командой добровольцев над созданием крупнейшего в мире бесплатного набора данных для обучения ИИ. Эта база уже активно используется в генераторах изображений по текстовому описанию, таких как Google Imagen и Stable Diffusion.

Генеративные ИИ полагаются на такие базы данных, как LAION, для получения огромного количества визуального материала, используемого для деконструкции и создания новых изображений. Сейчас это самые динамично развивающиеся технологии в мире. В то же время смена парадигмы создала много этических и юридических вопросов. В течение последних месяцев против компаний, занимающихся генеративными ИИ, были поданы крупные иски за нарушения авторских прав. А критики — бьют тревогу по поводу слишком жестоких или сексуализированных картинок, которые выпускаются тоннами. Со всем этим тоже теперь приходится разбираться школьному учителю.

Скромные начала

40-летний учитель и бывший актер основал LAION два года назад — после посиделок на сервере Discord для энтузиастов ИИ. Как раз только выпустили первая итерация DALL-E от OpenAI. Ему стало понятно, что за этим будущее. Кристоф был очень вдохновлен, но одновременно и обеспокоен тем, что это заставит крупные технологические компании делать ещё больше данных закрытыми. А это значило бы, что чем крупнее конгломерат — тем более сильное преимущество он получит над всеми остальными. Получился бы прямой путь к монополиям.

«Я сразу понял, что если это всё будет сосредоточено в руках одной, двух или трех компаний, это будет иметь очень плохие последствия для всего остального общества», — говорит Шуманн.

Чтобы это предотвратить, он и другие участники дискорд-сервера решили создать набор данных с открытым исходным кодом, который бы помогал в обучении моделей генерации изображений из текста. Это многомесячный процесс, аналогичный обучению кого-то английскому языку с помощью миллионов карточек вида «птица — это bird». Группа использовала HTML-код, собранный калифорнийской некоммерческой организацией Common Crawl, для поиска изображений в Интернете и связывания их с описывающим их текстом. На этом этапе они не использовали никакого ручного или человеческого курирования, просто пытаясь собрать самую большую базу из возможных.

В течение нескольких недель у Шуманна и его коллег было 3 миллиона пар изображение-текст. Еще через три месяца они выпустили набор данных с 400 миллионами пар. А сейчас это число уже превышает 5 миллиардов пар, что делает LAION крупнейшим бесплатным набором данных об изображениях в мире.

Все эти два года команда работала бесплатно, получив в 2021 году разовое пожертвование от компании Hugging Face, занимающейся машинным обучением. Но по мере роста популярности и репутации LAION их небольшой дискорд-чатик пытались купить разные организации. И вот однажды туда зашел бывший менеджер хедж-фонда, Эмад Мостак, и написал Кристофу личное сообщение.

Он предложил покрыть расходы на вычислительную мощность их проекта (а это тысячи долларов) без каких-либо условий. Эмад хотел запустить собственный бизнес в области генеративного искусственного интеллекта, тоже с открытым исходным кодом. И очень хотел использовать LAION для обучения своего продукта. Сначала команда не поверила его предложениям, приняв его за очередного интернет-чудака.

«Поначалу мы были очень скептичны, — сказал Шуманн, — но примерно через четыре недели мы получили доступ к графическим процессорам в облаке, которые обычно стоили бы около 10 000 долларов».

uchitel1.png

Через полгода, летом 2022-го, Эмад Мостак запустил свой проект: Stability AI. Он использовал данные LAION для создания Stable Diffusion, своего флагманского генератора изображений. Теперь, меньше года спустя, компанию Эмада оценивают в 4 миллиарда долларов, во многом благодаря данным, предоставленным LAION. Со своей стороны, Шуманн не получил никакой прибыли от LAION и говорит, что не заинтересован в этом. «Я все еще простой учитель средней школы. Я отклонял предложения от самых разных компаний, потому что хотел, чтобы мы оставались независимыми».

Новая нефть

Многие изображения в таких базах данных, как LAION, лежат в Интернете у всех на виду, часто в течение десятилетий. Потребовался бум ИИ, чтобы раскрыть истинную ценность этой информации. Оказалось, что чем больше и разнообразнее набор данных и чем выше качество изображений в нем, тем четче и точнее будет картинка, сгенерированная ИИ.

Осознание этого, в свою очередь, подняло ряд юридических и этических вопросов о том, можно ли использовать общедоступные материалы для наполнения таких баз данных. И если да, то следует ли платить что-то создателям этих картинок.

uchitel2.png

Чтобы сделать базу LAION, основатели брали визуальные данные с серверов таких компаний, как Pinterest, Shopify и Amazon. А ещё — миниатюры YouTube, изображения с платформ портфолио, таких как DeviantArt и EyeEm, фотографии с правительственных веб-сайтов (даже Министерства обороны США) и контент с новостных сайтов, например The Daily Mail и The Sun. Пока что все эти организации молчат по поводу того, нарушает ли такое использование контента их правила. То есть, они не разрешают, но и не запрещают работу LAION.

Если вы спросите Шуманна, он скажет, что, по его мнению, всё, что находится в общем доступе в Интернете, является свободным контентом, который можно использовать. Но такую позицию разделяют не все. Сейчас в Европейском Союзе, где он проживает, нет регулирования ИИ. А предстоящий Закон об ИИ, который огласят в начале этого лета, не станет определять, могут ли материалы, защищенные авторским правом, включаться в наборы Big Data. Законодатели пока что только обсуждают, нужно ли требовать от компаний, стоящих за ИИ-генераторами, раскрывать, какие материалы вошли в наборы данных, на которых обучались их продукты.

Правда, если этот закон примут — это уже даст создателям материалов возможность принимать меры. Они будут иметь подтверждение, что их работы были использованы в конкретном наборе Big Data.

Ожидается, что такое регулирование не будет проблемой для Stability AI, но может стать проблемой для других, более современных генераторов преобразования текста в изображение. «Никто не знает, что на самом деле Open AI использовали для обучения своей DALL-E 2», — говорит Шуманн. — «То же самое с Google». Большинство технологических компаний очень неохотно рассказывают, какими данными пользуются и откуда они их берут. Но по мере роста индустрии это почти наверняка будет меняться.

Подробнее
Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (1 vote)
Источник(и):

Хабр