Im Juni debütierte Runway mit einem neuen Text-zu-Video-Synthese-Modell namens Gen-3 Alpha. Es konvertiert schriftliche Beschreibungen, sogenannte "Prompts", in HD-Video-Clips ohne Ton. Wir hatten seitdem die Gelegenheit, es zu testen und wollten unsere Ergebnisse teilen. Unsere Tests zeigen, dass sorgfältige Prompting nicht so wichtig ist wie das Abgleichen von Konzepten, die wahrscheinlich im Trainingsdatenbestand gefunden wurden, und dass das Erzielen von amüsanten Ergebnissen wahrscheinlich viele Generationen und selektives Cherry-Picking erfordert.
Ein dauerhaftes Thema aller generativen KI-Modelle, die wir seit 2022 gesehen haben, ist, dass sie sehr gut darin sind, Konzepte aus dem Trainingsdatenbestand zu mischen, aber typischerweise sehr schlecht darin, zu generalisieren (erlerntes "Wissen" auf neue Situationen anzuwenden, auf die das Modell nicht explizit trainiert wurde). Das bedeutet, sie können exzellent darin sein, stilistische und thematische Neuheiten zu schaffen, aber sie haben Schwierigkeiten mit grundlegenden strukturellen Neuheiten, die über das Trainingsmaterial hinausgehen.
Was bedeutet das alles? Im Falle von Runway Gen-3 bedeutet mangelnde Generalisierung, dass du möglicherweise ein Segelschiff in einem schäumenden Kaffeebecher anforderst, und vorausgesetzt, dass Gen-3s Trainingsdaten Video-Beispiele von Segelschiffen und schäumendem Kaffee enthalten, ist das eine "leichte" neuartige Kombination, die das Modell ziemlich überzeugend erstellen kann. Aber wenn du ein Foto-realitätsnahes Katze ein Bier trinken in einem Bierwerbespot anforderst, schlägt es normalerweise fehl, weil es wahrscheinlich nicht viele Videos von realistischen Katzen gibt, die Menschengetränke trinken, im Trainingsdatenbestand. Stattdessen zieht es von dem, was es über Videos von Katzen und Bierwerbespots gelernt hat, und kombiniert sie. Das Ergebnis ist eine Katze mit menschlichen Händen, die ein Bier trinkt.
arstechnica.com
We made a cat drink a beer with Runway’s AI video generator, and it sprouted hands
Create attached notes ...
