Создание AI-агентов, способных распознавать объекты, имеет решающее значение для различных сценариев использования, включая модерацию контента, мультимедийный поиск и извлечение. LangChain и LangGraph — это фреймворки с открытым исходным кодом, которые можно использовать для создания мультимодальных агентов, способных идентифицировать объекты. Для создания таких агентов необходимо принять три ключевых решения: использовать варианты без кода/с минимальным кодом или создавать собственные агенты, какой агентный фреймворк использовать и где развертывать агентов. Для простых агентов можно использовать варианты без кода/с минимальным кодом, такие как Google Vertex AI Agent Builder, но для более сложных задач требуются собственные агенты. LangChain и LangGraph можно использовать в качестве агентного фреймворка, а Gemini 2.0 Flash — в качестве LLM (большой языковой модели), выступающей в роли "мозга". Пример кода демонстрирует, как идентифицировать объект в изображении, аудиофайле и видео с помощью различных агентов, работающих вместе. Генеративный AI-воркфлоу для обнаружения объектов включает в себя агента-оркестратора, вызывающего агентов-исполнителей, которые вызывают соответствующие инструменты для анализа файлов и передачи результатов обратно агенту-оркестратору. Окончательное решение принимается агентом-оркестратором после обобщения результатов. Агенты могут быть развернуты в Cloud Run для простых приложений или в Agent Engine для более продвинутой управляемой среды выполнения корпоративного уровня. Для начала разработчики могут использовать ADK Quickstart или посетить Agent Development GitHub.
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
cloud.google.com
Multimodal agents tutorial: How to use Gemini, Langchain, and LangGraph to build agents for object detection
t.me
Читайте AI и ML Новости в Телеграмм канале @ai_ml_news_ru
Create attached notes ...
