Генерал Подиума
В недавнем интервью Collider Джо Руссо, режиссер таких популярных фильмов Marvel, как «Мстители: Финал», предсказал, что через два года ИИ сможет создать полноценный фильм.
Можно сказать, что это довольно оптимистичный график. Но мы приближаемся.
На этой неделе Runway, стартап в области искусственного интеллекта, поддерживаемый Google, который помог разработать генератор изображений AI Stable Diffusion, выпустил Gen-2, модель, которая генерирует видео из текстовых подсказок или существующего изображения. (Gen-2 ранее находился в ограниченном доступе в списке ожидания.) Gen-2, являющийся продолжением модели Gen-1 от Runway, выпущенной в феврале, является одной из первых коммерчески доступных моделей преобразования текста в видео.
«Коммерчески доступный» является важным отличием. Преобразование текста в видео, являющееся логическим следующим рубежом в области генеративного искусственного интеллекта после изображений и текста, становится все более важной областью внимания, особенно среди технологических гигантов, некоторые из которых за последний год продемонстрировали модели преобразования текста в видео. Но эти модели остаются на стадии исследования и недоступны всем, кроме избранных специалистов по данным и инженеров.
Конечно, первое не обязательно лучше.
Из личного любопытства и служения вам, дорогие читатели, я прогнал несколько подсказок по Gen-2, чтобы понять, чего может — и чего не может — достичь модель. (В настоящее время Runway предоставляет около 100 секунд бесплатного создания видео.) В моем безумии не было особого метода, но я старался уловить ряд ракурсов, жанров и стилей, которые мог бы захотеть увидеть режиссер, профессионал или режиссер. на серебряном экране — или на ноутбуке, в зависимости от обстоятельств.
Одним из ограничений Gen-2, которое сразу стало очевидным, является частота кадров четырехсекундных видеороликов, генерируемых моделью. Он довольно низкий и заметно настолько, что местами напоминает слайд-шоу.
Кредиты изображений:ВПП
Неясно, является ли это проблемой технологии или попыткой Runway сэкономить на вычислительных затратах. В любом случае, это делает Gen-2 довольно непривлекательным предложением для редакторов, надеющихся избежать постобработки.
Помимо проблемы с частотой кадров, я обнаружил, что клипы, созданные Gen-2, имеют тенденцию иметь общую зернистость или нечеткость, как если бы к ним был применен какой-то старый фильтр Instagram. Местами возникают и другие артефакты, например, пикселизация вокруг объектов, когда «камера» (из-за отсутствия лучшего слова) обходит их или быстро приближается к ним.
Как и многие генеративные модели, Gen-2 не особенно последователен в отношении физики и анатомии. Подобно чему-то, придуманному сюрреалистом, руки и ноги людей в видеороликах, созданных Gen-2, сливаются воедино и снова распадаются, в то время как объекты тают на полу и исчезают, их отражения деформируются и искажаются. И — в зависимости от подсказки — лица могут выглядеть кукольными, с блестящими, безэмоциональными глазами и бледной кожей, напоминающей дешевый пластик.
Кредиты изображений:ВПП
Если говорить выше, есть проблема с содержанием. Ген-2, кажется, с трудом понимает нюансы: он цепляется за определенные дескрипторы в подсказках, игнорируя другие, по-видимому, случайно.
Кредиты изображений:ВПП
Одна из подсказок, которую я попробовал: «Видео подводной утопии, снятое на старую камеру в стиле фильма «найденные кадры»,» не породило такой утопии — только то, что выглядело как погружение с аквалангом от первого лица. анонимный коралловый риф. Gen-2 тоже боролся с другими моими подсказками, не сумев создать увеличенный снимок для подсказки, специально призывающей к «медленному масштабированию», и не совсем придав вид обычного космонавта.
Могут ли проблемы быть связаны с набором обучающих данных Gen-2? Возможно.
Gen-2, как и Stable Diffusion, представляет собой модель диффузии, то есть она учится постепенно вычитать шум из исходного изображения, полностью состоящего из шума, чтобы шаг за шагом приближать его к подсказке. Модели диффузии обучаются посредством обучения на миллионах и миллиардах примеров; В академической статье, подробно описывающей архитектуру Gen-2, Runway сообщает, что модель была обучена на внутреннем наборе данных, состоящем из 240 миллионов изображений и 6,4 миллиона видеоклипов.