Vi fik en kat til at drikke en øl med Runway's AI-video generator, og det fik hænder

Følg

Vi fik en kat til at drikke en øl med Runway's AI-video generator, og det fik hænder

I juni lancerede Runway en ny tekst-til-video-syntese-model kaldet Gen-3 Alpha. Den konverterer skrevne beskrivelser, kaldet "prompt", til HD-video-klip uden lyd. Vi har nu haft mulighed for at bruge den og ønskede at dele vores resultater. Vores tests viser, at omhyggelig promptning ikke er så vigtig som at matche koncepter, der sandsynligvis findes i træningsdata, og at opnå morsomme resultater sandsynligvis kræver mange generationer og selektiv cherry-picking.En varig tema for alle generative AI-modeller, vi har set siden 2022, er, at de kan være fremragende til at blande koncepter fundet i træningsdata, men typisk meget dårlige til at generalisere (at anvende erhvervet "viden" på nye situationer, som modellen ikke specifikt er blevet trænet på). Det betyder, at de kan excelle i stilistisk og tematisk nytænkning, men kæmpe med fundamental strukturel nytænkning, der går ud over træningsdata.Hvad betyder alt det? I tilfælde af Runway Gen-3 betyder manglende generalisering, at hvis du beder om en sejlskib i en svirrende kaffekop, og forudsat, at Gen-3's træningsdata omfatter videoeksempler på sejlskibe og svirrende kaffe, er det en "let" nyt kombination for modellen at skabe ret overbevisende. Men hvis du beder om en kat, der drikker en øl i en ølreklame, vil den generelt fejle, fordi der sandsynligvis ikke er mange videoer med fotorealistiske katte, der drikker menneskelige drikke i træningsdata. I stedet vil modellen trække på, hvad den har lært om videoer med katte og videoer med ølreklamer, og kombinere dem. Resultatet er en kat med menneskelige hænder, der drikker en øl.

We made a cat drink a beer with Runway’s AI video generator, and it sprouted hands arstechnica.com

RSS Hunter • 29. jul. 2024