PaliGemma, легкая открытая модель зрения-языка (VLM), может принимать как визуальные, так и текстовые входы и генерировать текстовый ответ, добавляя дополнительную модель зрения к модели BaseGemma.
developers.googleblog.com
Gemma explained: PaliGemma architecture