С чат-боты и генераторы текста в изображение Взяв Интернет штурмом, следующим достижением ИИ могут стать генераторы преобразования текста в видео.
Nvidia недавно опубликовала исследовательскую работу под названием «Синтез видео высокого разрешения с моделями скрытой диффузии», посвященную своим экспериментам. в своей Лаборатории искусственного интеллекта в Торонто, где подробно рассказывается, как они используют Stable Diffusion для создания инструмента, который может создавать движущиеся изображения из текстовых подсказок.
Рекомендуемые видео
Технологическая компания продемонстрировала демо-версии моделей скрытой диффузии (LDM), которые используют текст для создания видеоклипов без большой компьютерной обработки. ТехРадар отмеченный.
Инструмент способен генерировать движущиеся изображения в стиле GIF, которые представляют собой видеоролики продолжительностью примерно 4,7 секунды и разрешением 1280 x 2048. Согласно исследовательской работе, он также способен создавать более длинные видеоролики с меньшим разрешением 512 x 1024.
Посмотрев демо-версию технологии, TechRadar заявил, что на данный момент этот инструмент, вероятно, идеален в качестве генератора текста в GIF. В публикации отмечается, что он может легко обрабатывать простые запросы, такие как штурмовик пылесосит на пляже или плюшевый мишка играет на электрогитаре, высокое разрешение, 4К. Несмотря на это, в результате в GIF-файлах по-прежнему появлялись случайные артефакты и размытия, что характерно для других регулярно используемых инструментов искусственного интеллекта, таких как Середина пути.
Издание считает, что более длинные видео все еще нуждаются в некоторой доработке, прежде чем они попадут в прайм-тайм, но считает, что Nvidia будет работать быстро, чтобы подготовить технологию. Они могут хорошо подойти для фондовых библиотек и подобных целей.
Есть и другие компании, экспериментирующие с генераторами текста в видео на базе искусственного интеллекта. Google продемонстрировал свой генератор Phenaki, который позволяет создавать более длинные подсказки и создавать 20-секундные видеоролики. Другой стартап под названием Runway в прошлом месяце анонсировал свою видеомодель второго поколения, которая также основана на Stable Diffusion. Это демо-версия подсказки вечернее солнце, заглядывающее в окно лофта в Нью-Йорке показывает, как можно добавить к неподвижным изображениям небольшие эффекты движения.
По данным TechRadar, пользователи также могут получить выгоду от добавления ИИ в другие программы, такие как Adobe Firefly и Adobe Premiere Rush.
Некоторые другие компании, такие как Наракит и Люм5, позиционируют себя как генераторы текста в видео. Однако многие из этих инструментов больше похожи на презентации PowerPoint, объединяя текст, аудио и изображения и, возможно, некоторые уже подготовленные видеоролики с подсказками, а не создание уникального работа.
Рекомендации редакции
- Прорывы в области искусственного интеллекта могут произойти благодаря мозгу пчел, говорят ученые
- Nvidia внедряет ИИ в стиле ChatGPT в видеоигры, и я уже волнуюсь
- Как генеративный ИИ будет создавать игры с «более широкими, большими и глубокими мирами»
- Прекратите использовать инструменты генеративного искусственного интеллекта, такие как ChatGPT, Samsung приказывает персоналу
- Новое приложение Microsoft Designer делает генеративный искусственный интеллект невероятно простым
Обновите свой образ жизниDigital Trends помогает читателям быть в курсе быстро меняющегося мира технологий благодаря всем последним новостям, забавным обзорам продуктов, содержательным редакционным статьям и уникальным кратким обзорам.