I juni debuterade Runway med en ny text-till-video-syntesmodell kallad Gen-3 Alpha. Den konverterar skrivna beskrivningar, kallade "prompt", till HD-video klipp utan ljud. Vi har sedan haft möjlighet att använda den och ville dela med oss av våra resultat. Våra tester visar att omsorgsfulla prompt inte är lika viktiga som att matcha koncept som sannolikt finns i träningdata, och att uppnå roliga resultat sannolikt kräver många generationer och selektivt cherry-picking.
En varaktig tema för alla generativa AI-modeller vi har sett sedan 2022 är att de kan vara utmärkta på att blanda koncept som finns i träningdata men är typiskt mycket dåliga på att generalisera (tillämpa inlärda "kunskaper" på nya situationer som modellen inte explicit har tränats på). Det betyder att de kan excellerera i stilistisk och tematisk nyhet men kämpa med grundläggande strukturell nyhet som går utöver träningdata.
Vad betyder allt det? I fallet med Runway Gen-3 innebär bristen på generalisering att du kanske ber om en segelbåt i en virvlande kopp kaffe, och om Gen-3:s träningdata innehåller videoexempel på segelbåtar och virvlande kaffe, är det en "lätt" ny kombination för modellen att göra relativt övertygande. Men om du ber om en katt som dricker en burk öl (i en ölreklam), kommer det generellt att misslyckas eftersom det inte finns sannolikt många videor på fotorealistiska katter som dricker mänskliga drycker i träningdata. Istället kommer modellen att dra från vad den har lärt sig om videor av katter och videor av ölreklam och kombinera dem. Resultatet är en katt med mänskliga händer som släcker en brewsky.
arstechnica.com
We made a cat drink a beer with Runway’s AI video generator, and it sprouted hands
Create attached notes ...
