Em junho, a Runway estreou um novo modelo de síntese de texto para vídeo chamado Gen-3 Alpha. Ele converte descrições escritas chamadas "prompts" em clipes de vídeo HD sem som. Desde então, tivemos a oportunidade de usá-lo e queríamos compartilhar nossos resultados. Nossos testes mostram que a cuidadosa elaboração de prompts não é tão importante quanto combinar conceitos provavelmente encontrados nos dados de treinamento, e que alcançar resultados divertidos provavelmente requer muitas gerações e seleção seletiva.
Um tema duradouro de todos os modelos de IA gerativos que vimos desde 2022 é que eles podem ser excelentes em misturar conceitos encontrados nos dados de treinamento, mas são tipicamente muito ruins em generalizar (aplicar "conhecimento" aprendido a novas situações que o modelo não foi explicitamente treinado). Isso significa que eles podem se destacar em novidade estilística e temática, mas lutam com a novidade estrutural fundamental que vai além dos dados de treinamento.
O que tudo isso significa? No caso do Runway Gen-3, a falta de generalização significa que você pode pedir um navio a vela em uma xícara de café em espiral, e desde que os dados de treinamento do Gen-3 incluam vídeos de navios a vela e café em espiral, essa é uma combinação "fácil" de novidade para o modelo criar de forma convincente. Mas se você pedir um gato bebendo uma lata de cerveja (em um comercial de cerveja), ele geralmente falhará porque provavelmente não há muitos vídeos de gatos fotorrealistas bebendo bebidas humanas nos dados de treinamento. Em vez disso, o modelo irá buscar o que aprendeu sobre vídeos de gatos e comerciais de cerveja e combiná-los. O resultado é um gato com mãos humanas bebendo um copo de cerveja.
arstechnica.com
We made a cat drink a beer with Runway’s AI video generator, and it sprouted hands
Create attached notes ...
