텍스트-이미지 기초 모델인 Pinterest Canva... 노트

텍스트-이미지 기초 모델인 Pinterest Canvas 구축

Pinterest Canvas는 1.5억 개 이상의 고품질 텍스트-이미지 쌍을 통해 훈련된 텍스트-이미지 모델입니다. 기본 모델은 제품의 사진실적 배경을 생성하는 데 사용되는 2단계 훈련 프로세스를 거치며, 물체 경계를 보존하는 인페인팅을 포함합니다. 생성 프로세스를 지시하는 조건 이미지와 함께 Unified Visual Embedding(UVE)가 결과 출력에 특히 효과적임을 보여줍니다. 모델은 IP-Adapter를 사용하여 추가 이미지 프롬프트를 처리할 수 있으며, 특정 시각적 스타일의 배경을 생성할 수 있습니다. 향후 개선 사항으로는 Transformer 확산 구조로 업그레이드, 소프트 마스킹 접근 방식 탐색, Pinterest 최적화된 시각적 임베딩을 포함하여 텍스트 조건을 개선하는 것입니다. Pinterest Canvas는 제품을 새로운 맥락에서 시각화하고 플랫폼상의 기존 이미지 및 제품을 개선합니다.