Автор перешел от традиционного к мультимодальному ИИ на C# из-за неспособности чат-бота анализировать изображения в запросах в службу поддержки. Мультимодальный ИИ обрабатывает несколько типов данных, таких как текст и изображения, предлагая более богатый контекст, чем подходы с одной модальностью, что повышает точность диагностики. Миграция включала аудит существующих реализаций ИИ, выбор фреймворка (LlmTornado был выбран из-за его нативной мультимодальной поддержки и гибкости поставщиков) и установку необходимых пакетов. Затем автор перенес рабочие процессы текст-плюс-изображение, используя `ChatMessagePart` для объединения входных данных, и включил возможности обработки аудио путем транскрибирования аудиозаметок. Обработка PDF-документов также была оптимизирована, что улучшило анализ контрактов. Для повышения эффективности была реализована потоковая передача, что улучшило взаимодействие с пользователем. Автор решил проблему обработки ошибок с помощью стратегий резервного копирования для ограничений размера файлов и проверок возможностей модели. Наконец, автор подчеркнул важность мониторинга затрат и производительности на протяжении всего процесса.
dev.to
Migrating to a Multimodal AI Framework: A Step-by-Step Guide for C# Developers
Create attached notes ...
