Vi fikk en katt til å drikke en øl med Runway's AI-video generator, og det vokste ut hender

Følg

Vi fikk en katt til å drikke en øl med Runway's AI-video generator, og det vokste ut hender

I juni debuterte Runway med en ny tekst-til-video-syntese-modell kalt Gen-3 Alpha. Den konverterer skrevne beskrivelser, kalt "prompter", til HD-video-klipp uten lyd. Vi har siden hatt muligheten til å bruke den og ønsket å dele våre resultater. Våre tester viser at omhyggelig prompting ikke er like viktig som å matche konsepter som sannsynligvis er funnet i treningdata, og at å oppnå morsomme resultater sannsynligvis krever mange generasjoner og selektiv plukking.Et varig tema for alle generative AI-modeller vi har sett siden 2022 er at de kan være utmerket på å blande konsepter funnet i treningdata, men typisk svært dårlige på å generalisere (applikere lært "kunnskap" på nye situasjoner modellen ikke eksplisitt har blitt trent på). Det betyr at de kan utmerke seg i stilistisk og tematisk nyskapning, men slite med grunnleggende strukturell nyskapning som går ut over treningdata.Hva betyr alt det? I tilfellet Runway Gen-3, betyr mangel på generalisering at du kanskje spør etter et seilskip i en svingende kopp kaffe, og gitt at Gen-3s treningdata inkluderer videoeksempler på seilskip og svingende kaffe, er det en "lett" ny kombinasjon for modellen å lage ganske overbevisende. Men hvis du spør etter en katt som drikker en boks øl (i en ølreklame), vil den generelt svikte fordi det ikke er sannsynlig mange videoer av fotorealistiske katter som drikker menneskelige drikke i treningdata. I stedet vil modellen trekke fra det den har lært om videoer av katter og videoer av ølreklamer og kombinere dem. Resultatet er en katt med menneskelige hender som drikker en pilsner.

We made a cat drink a beer with Runway’s AI video generator, and it sprouted hands arstechnica.com

RSS Hunter • 29. juli 2024