Haziran ayında, Runway, yeni bir metin-videya sentez modeli olan Gen-3 Alpha'yı piyasaya sürdü. Bu model, sesli olmayan HD video kliplerini oluşturan yazılmış açıklamalar olan "uyarılara" dayanmaktadır. Bu modele sahip olduğumuzdan beri, onu kullanarak sonuçlar elde ettik ve bu sonuçları paylaşmak istedik. Testlerimiz, dikkatli uyarma değil, eğitme verilerine olası kavramlar arasında uyumlu olma gerektiğini ve eğlenceli sonuçlar elde etmek için çok sayıda nesil ve seçici cherry-picking'in gerekli olduğunu gösteriyor.
2022'den beri gördüğümüz tüm üreteç AI modellerinde süreklilik gösteren bir tema, onların eğitme verilerinde bulunan kavramları karıştırma yeteneğinde oldukça iyi oldukları, ancak eğitme verilerinde bulunmayan yeni durumlara genel olarak uygulama yeteneğinde oldukça kötü olduklarıdır. Bu, onların stilistik ve tematik yeniliklerde iyi oldukları, ancak eğitme verilerinde bulunmayan temel yapısal yeniliklerde mücadele ettikleri anlamına gelir.
Bütün bu ne anlama gelir? Runway Gen-3 için, genellemenin eksikliği, bir yelkenli geminin swirling kahve fincanında bulunmasını isteyebileceğiniz anlamına gelir. Eğitim verilerine yelkenli gemiler ve swirling kahve örnekleri varsa, bu, model için oldukça kolaydır. Ama bir kedi, bir bira reklamında bir bira kutusunu içerken isterseniz, genelde başarısız olur, çünkü eğitme verilerinde fotorealistik kedilerin insan içeceklerini içerdiği video yok. Bunun yerine, model, kediler ve bira reklamları hakkındaki video örneklerini kullanarak birleştirecek. Sonuç, bir bira kutusunu bir erkekle tokuşturan bir kedi olur.
arstechnica.com
We made a cat drink a beer with Runway’s AI video generator, and it sprouted hands
Create attached notes ...
