A giugno, Runway ha debuttato con un nuovo modello di sintesi video-testo chiamato Gen-3 Alpha. Converte le descrizioni scritte chiamate "prompt" in clip video HD senza audio. Da allora, abbiamo avuto la possibilità di utilizzarlo e volevamo condividere i nostri risultati. I nostri test mostrano che una attenta prompt non è tanto importante quanto abbinare concetti probabilmente presenti nei dati di addestramento, e che ottenere risultati divertenti richiede probabilmente molte generazioni e una selezione selettiva.
Un tema duraturo di tutti i modelli di IA generativi che abbiamo visto dal 2022 è che possono essere eccellenti nel miscelare concetti presenti nei dati di addestramento, ma sono generalmente molto poveri nella generalizzazione (applicazione della "conoscenza" appresa a nuove situazioni che il modello non ha esplicitamente imparato). Ciò significa che possono eccellere nella novità stilistica e tematica, ma lottare per la novità strutturale fondamentale che va oltre i dati di addestramento.
Cosa significa tutto ciò? Nel caso di Runway Gen-3, la mancanza di generalizzazione significa che potresti chiedere di una nave a vela in una tazza di caffè vorticosa, e se i dati di addestramento di Gen-3 includono video di navi a vela e caffè vorticosa, è una combinazione "facile" e novella che il modello può creare in modo convincente. Ma se chiedi di un gatto che beve una lattina di birra (in uno spot pubblicitario della birra), fallirà generalmente perché non ci sono probabilmente molti video di gatti fotorealistici che bevono bevande umane nei dati di addestramento. Invece, il modello attingerà a ciò che ha imparato sui video di gatti e spot pubblicitari della birra e li combinerà. Il risultato è un gatto con mani umane che si scola una birra.
arstechnica.com
We made a cat drink a beer with Runway’s AI video generator, and it sprouted hands
Create attached notes ...
