В статье представлена оценка когерентности (CS), фреймворк для оценки структурной целостности результатов работы больших языковых моделей (LLM). Существующие методы оценки часто упускают структурные нарушения, такие как логические скачки, даже при беглом и фактическом соответствии текста. CS решает эту проблему, оценивая когерентность в условиях ограничений, уделяя особое внимание многоступенчатым рассуждениям в производственных конвейерах. Фреймворк включает восемь категорий для выявления таких проблем, как нарушение последовательности и дрейф терминологии. CS не заменяет существующие метрики, а дополняет их, особенно в RAG и мультиагентных системах. Фреймворк включает в себя извлечение ограничений, отслеживание терминов, сравнение сохранения состояния, обозначение предположений и сравнение нескольких моделей. CS полезен в таких областях, как корпоративный RAG, регулируемые приложения AI-copilot и долгосрочные исследования. Для эффективного использования CS необходимы калибровка и настройка для конкретной предметной области. Хотя CS не является полным решением, он обеспечивает практический подход к выявлению структурных недостатков в контенте, сгенерированном LLM.
dev.to
Designing a Coherence Score (CS) for Structural Evaluation of LLM Outputs
