Meta가 비디오용으로 DALL-E를 만들었는데, 오싹하면서도 놀랍습니다.

Meta는 사용자가 입력한 설명을 비디오로 변환할 수 있는 놀라운 인공 지능 모델을 공개했습니다. 시스템이 호출됩니다. 비디오를 만들다 웹에서 AI로 생성된 콘텐츠의 최신 동향입니다.

시스템은 "바다에서 파도를 서핑하는 로봇" 또는 "산호초를 헤엄치는 광대 물고기"와 같은 짧은 설명을 받아들이고 설명에 대한 짧은 GIF를 동적으로 생성합니다. 초현실적, 사실적, 양식화 등 세 가지 스타일의 비디오 중에서 선택할 수도 있습니다.

에 따르면 페이스북 게시물 Meta CEO인 Mark Zuckerberg는 서면 텍스트를 비디오로 번역하는 것이 비디오에 움직임이 필요한 방식 때문에 훨씬 더 어렵습니다.

추천 동영상

“각 픽셀을 올바르게 생성하는 것 외에도 시스템은 시간이 지남에 따라 픽셀이 어떻게 변할지 예측해야 하기 때문에 사진보다 비디오를 생성하는 것이 훨씬 더 어렵습니다. Make-A-Video는 시스템이 물리적 세계의 동작을 이해하고 이를 기존의 텍스트-이미지 생성에 적용할 수 있도록 하는 비지도 학습 계층을 추가하여 이 문제를 해결합니다."

Meta의 AI 연구팀은 다음과 같은 글을 썼습니다. 종이 시스템 작동 방식과 현재 T2I(text-to-image) 방식과 어떻게 다른지 설명합니다. 다른 기계어 모델과 달리 Meta의 T2V(텍스트-비디오) 방법은 미리 정의된 텍스트-비디오 쌍을 사용하지 않습니다. 예를 들어, '걷는 남자'와 실제 남자가 걷는 영상을 연결하지 않습니다.

이것이 인기 있는 T2I 애플리케이션인 DALL-E와 매우 흡사하다고 생각된다면 그리 멀지 않을 것입니다. DALL-E가 인기를 얻은 이후 다른 T2I 애플리케이션이 출시되었습니다. TikTok에서 필터를 출시했습니다 8월에는 입력한 단어를 기반으로 그림 스타일 이미지를 생성하는 AI Greenscreen이 출시되었습니다.