6月份,Runway推出了一个名为Gen-3 Alpha的文本到视频合成模型。它可以将书面描述(称为“提示”)转换为高清视频剪辑,但不包括音频。我们已经有机会使用它,并想与大家分享我们的结果。我们的测试表明,仔细编写提示并不太重要,而是要与训练数据中可能找到的概念相匹配。要获得有趣的结果,可能需要生成多个版本并进行选择性挑选。
自2022年以来,我们所见到的所有生成型AI模型都存在一个持久的主题:它们在混合训练数据中的概念方面非常出色,但在推广(将学习到的“知识”应用于模型未经训练的新情况)方面通常非常差。这意味着它们在风格和主题创新方面都很出色,但在结构创新方面存在很大的限制,因为这些创新超出了训练数据。
所有这些都意味着什么?在Runway Gen-3的情况下,缺乏推广意味着你可能会要求在咖啡中航行的帆船,而如果Gen-3的训练数据中包括帆船和咖啡旋转的视频示例,那么这是模型可以合理地生成的新组合。然而,如果你要求一只猫喝啤酒罐(在啤酒广告中),模型通常会失败,因为训练数据中可能没有很多关于猫喝人类饮料的视频。相反,模型将从它关于猫和啤酒广告的视频中学到的知识中提取,并将它们结合起来。结果是一只猫用人类的手喝啤酒。
arstechnica.com
We made a cat drink a beer with Runway’s AI video generator, and it sprouted hands
Create attached notes ...
