Phi-4-Reasoning-Vision-15B — новая модель Microsoft для визуального мышления, интегрирующая визуальное восприятие высокого разрешения и возможности мышления, ориентированного на задачи. Это первая модель в семействе Phi-4, которая достигла как четкого видения, так и глубокого мышления в качестве небольшой языковой модели (SLM). Модель превосходно справляется со структурированным, многоступенчатым мышлением, интерпретируя изображения, связывая их с текстом и делая выводы. Ключевой особенностью является ее способность к «избирательному мышлению», переключению между режимами мышления и не-мышления в зависимости от запроса. Разработчики могут управлять поведением мышления, используя режимы «гибридный», «думать» и «не думать» для балансировки скорости и точности. Этот дизайн имеет решающее значение для приложений реального времени, позволяя динамически настраивать потребности в задержке. Он эффективен в агентах графического интерфейса, понимая скриншоты и генерируя координаты ограничивающих рамок для элементов пользовательского интерфейса. Модель также превосходно справляется с математическим и научным визуальным мышлением, а также с пониманием документов, диаграмм и таблиц. Phi-4-Reasoning-Vision-15B предлагает преимущества в математическом мышлении и задачах привязки к графическому интерфейсу по сравнению с аналогичными моделями. Она разработана, чтобы быть быстрой, гибкой и мощной, поддерживая полную цепочку возможностей от визуального ввода до действенного вывода. Ее три режима мышления позволяют динамически настраивать точность и задержку. Эта модель подходит для создания агентов электронной коммерции и образовательных инструментов для обучения и доступна для работы разработчиков.
techcommunity.microsoft.com
Phi-4-Reasoning-Vision-15B: Use Cases In-Depth
