我们使用Runway的AI视频生成器让一只猫喝啤酒，然后它长出了手

6月份，Runway推出了一个名为Gen-3 Alpha的文本到视频合成模型。它可以将书面描述（称为“提示”）转换为高清视频剪辑，但不包括音频。我们已经有机会使用它，并想与大家分享我们的结果。我们的测试表明，仔细编写提示并不太重要，而是要与训练数据中可能找到的概念相匹配。要获得有趣的结果，可能需要生成多个版本并进行选择性挑选。自2022年以来，我们所见到的所有生成型AI模型都存在一个持久的主题：它们在混合训练数据中的概念方面非常出色，但在推广（将学习到的“知识”应用于模型未经训练的新情况）方面通常非常差。这意味着它们在风格和主题创新方面都很出色，但在结构创新方面存在很大的限制，因为这些创新超出了训练数据。所有这些都意味着什么？在Runway Gen-3的情况下，缺乏推广意味着你可能会要求在咖啡中航行的帆船，而如果Gen-3的训练数据中包括帆船和咖啡旋转的视频示例，那么这是模型可以合理地生成的新组合。然而，如果你要求一只猫喝啤酒罐（在啤酒广告中），模型通常会失败，因为训练数据中可能没有很多关于猫喝人类饮料的视频。相反，模型将从它关于猫和啤酒广告的视频中学到的知识中提取，并将它们结合起来。结果是一只猫用人类的手喝啤酒。

arstechnica.com

We made a cat drink a beer with Runway’s AI video generator, and it sprouted hands

RSS Hunter

2024-07-29

Create attached notes ...