6월에 Runway는 새로운 텍스트-비디오 합성 모델인 Gen-3 Alpha를 출시했습니다. 이 모델은 고화질 비디오 클립을 생성하지만 음성은 포함되지 않습니다. 우리는 최근 이 모델을 사용해 본 결과를 공유하고 싶었습니다. 우리의 테스트 결과는 조심스러운 프롬프트가 중요한 것이 아니라 훈련 데이터에서 일반적으로 찾을 수 있는 개념과 일치하는 것이 더 중요하다는 것을 보여줍니다. 또한 재미있는 결과를 얻는 것은 여러 세대와 선택적인 체리 피킹이 필요할 것입니다.
2022년에 시작된 모든 생성 AI 모델의 지속적인 테마는 훈련 데이터에서 찾을 수 있는 개념을 섞는 데 탁월하지만 일반화하는 데는 일반적으로 매우 약하다는 것입니다. 일반화는 모델이 명시적으로 훈련되지 않은 새로운 상황에 학습된 "지식을" 적용하는 것을 의미합니다. 이러한 특징은 모델이 스타일적이고 테마적인 혁신에 탁월하지만 훈련 데이터를 넘어서는 기본적인 구조적인 혁신에는 어려움을 겪는다는 것을 의미합니다.
이 모든 것이 의미하는 것은 무엇입니까? Runway Gen-3의 경우 일반화 부족은 당신이 커피 컵에 회전하는帆船을 요청할 때 모델이 그와 같은 예를 훈련 데이터에서 찾을 수 있기 때문에 새로운 조합을 만들어내는 데 비교적 쉽다는 것을 의미합니다. 그러나 당신이 맥주 광고에서 고양이가 맥주를 마시는 것을 요청할 때, 모델은 훈련 데이터에서 사진 실사적인 고양이와 맥주 광고의 비디오 예를 찾아 조합할 것입니다. 결과는 맥주를 마시는 사람의 손을 가진 고양이가 됩니다.
arstechnica.com
We made a cat drink a beer with Runway’s AI video generator, and it sprouted hands
Create attached notes ...
