画像生成における協調的アプローチ
テキストから画像へのモデルは、単一のプロンプトからユーザーの意図を正確に捉えるのに苦労することがよくあります。この研究では、ユーザーとの対話を通じて画像生成を共同で洗練する強化学習エージェントであるPASTAを紹介します。PASTAは、ガイド付きの会話を行うことで、面倒なプロンプトの試行錯誤の必要性をなくします。このプロジェクトでは、人間の評価を通じて、一連のユーザーの好みの新しいデータセットを開発しました。PASTAは、その後、リアルデータとシミュレーションデータの混合でトレーニングされ、優れた結果を達成しました。プライバシーの問題により、十分な実世界のユーザーデータを収集することは困難です。トレーニング戦略は、初期の実際の人間からのフィードバックと大規模なユーザーシミュレーションを組み合わせました。ユーティリティと選択のコンポーネントを持つユーザーモデルが開発され、潜在的なユーザータイプを特定しました。このシミュレーションされたユーザーフィードバックにより、30,000以上のインタラクション軌道が生成されました。PASTAは、価値ベースの強化学習エージェントとして、ユーザー満足度を最大化するために最適なプロンプト拡張を選択します。テストでは、リアルデータとシミュレーションデータを組み合わせたPASTAは、ベースラインモデルを大幅に上回りました。人間の評価者は、PASTAが生成した画像を圧倒的に好み、個々の創造的なビジョンへの適応性を示しました。この研究は、よりインタラクティブで好みに適応する生成AIの未来を強調しています。