AI- ja ML-uutisia suomeksi

Teimme kissan juovan oluen Runway:n AI-videogeneraattorilla, ja se kasvatti kädet

Follow
Kesäkuussa Runway julkaisi uuden teksti-videokäännösmallin, jota kutsutaan Gen-3 Alphaksi. Se muuttaa kirjoitetut kuvaukset, joita kutsutaan "kutsuiksi", HD-videoklippeiksi äänetöntä. Olemme nyt ehtineet käyttää sitä ja haluamme jakaa tuloksemme. Kokeemme osoittavat, että huolellinen kutsunmuotoilu ei ole yhtä tärkeää kuin vastaavien käsitteiden yhdistäminen, joita on todennäköisesti esillä koulutusaineistossa, ja että huvittavien tulosten saavuttaminen vaatii todennäköisesti monta sukupolvea ja valikoivan valinnan. Kaikkiin generatiivisiin AI-malleihin, joita olemme nähneet vuodesta 2022 lähtien, on yhteistä, että ne voivat olla erittäin hyviä yhdistämään käsitteitä, joita on koulutusaineistossa, mutta yleensä heikkoja generalisoimaan (soveltamaan oppimaansa "tietoa" uusiin, koulutusaineistossa ei ole erikseen käsitettyihin, situatioihin). Tämä tarkoittaa, että ne voivat olla erittäin hyviä luomaan tyylillisiä ja teemoja, mutta kamppailevat perustavanlaatuisen struktuurin uudistamisessa, jota ei ole koulutusaineistossa. Mitä kaikki tämä tarkoittaa? Runway Gen-3:n tapauksessa generalisoinnin puute tarkoittaa, että kun kysyt purjehtivasta laivasta kahvin pyörteessä, ja kun Gen-3:n koulutusaineistossa on videoita purjehtivista laivoista ja pyörteisestä kahvista, tämä on "helppo" uusi yhdistelmä, jonka malli pystyy toteuttamaan melko vakuuttavasti. Mutta kun kysyt kissasta, joka juo olutpullosta (olutmainoksessa), se yleensä epäonnistuu, koska todennäköisesti ei ole monta videota valokuvatodellisista kissoista, jotka juovat ihmiskuntaa. Sen sijaan malli vetää esille, mitä se on oppinut videoista kissoista ja olutmainoksista, ja yhdistää ne. Tuloksena on kissa, jolla on ihmiskädet ja se kääntää olutpulloa.
favicon
arstechnica.com
We made a cat drink a beer with Runway’s AI video generator, and it sprouted hands
Create attached notes ...