En juin, Runway a lancé un nouveau modèle de synthèse de vidéo à partir de texte appelé Gen-3 Alpha. Ce modèle convertit des descriptions écrites, appelées "prompts", en clips vidéo HD sans son. Nous avons depuis eu l'occasion de l'utiliser et souhaitions partager nos résultats. Nos tests montrent que le promptage soigneux n'est pas aussi important que la concordance des concepts probablement trouvés dans les données d'entraînement, et que l'obtention de résultats amusants nécessite probablement de nombreuses générations et une sélection ciblée.
Un thème durable de tous les modèles d'IA générative que nous avons vus depuis 2022 est qu'ils peuvent être excellents pour combiner des concepts trouvés dans les données d'entraînement, mais sont généralement très faibles pour généraliser (appliquer des "connaissances" apprises à de nouvelles situations que le modèle n'a pas été explicitement entraîné sur). Cela signifie qu'ils peuvent exceller dans la nouveauté stylistique et thématique, mais lutter pour la nouveauté structurelle fondamentale qui va au-delà des données d'entraînement.
Qu'est-ce que tout cela signifie ? Dans le cas de Runway Gen-3, le manque de généralisation signifie que si vous demandez un navire à voile dans une tasse de café tourbillonnante, et que les données d'entraînement de Gen-3 incluent des vidéos de navires à voile et de café tourbillonnant, c'est une combinaison novatrice "facile" pour le modèle de créer de manière convaincante. Mais si vous demandez à un chat de boire une canette de bière (dans une publicité pour la bière), il échouera généralement car il n'y a probablement pas beaucoup de vidéos de chats photoréalistes buvant des boissons humaines dans les données d'entraînement. Au lieu de cela, le modèle puisera dans ce qu'il a appris sur les vidéos de chats et les publicités pour la bière et les combinerait. Le résultat est un chat avec des mains humaines qui se gave de bière.
arstechnica.com
We made a cat drink a beer with Runway’s AI video generator, and it sprouted hands
Create attached notes ...
