Хватит «тестировать на вайб» свои большие языковые модели. Пора проводить реальную оценку.

Stax, экспериментальный инструмент для разработчиков, решает проблему недостаточной эффективности «тестирования настроения» языковых моделей машинного обучения (LLM), упрощая цикл оценки LLM, что позволяет пользователям тщательно тестировать свой стек ИИ и принимать обоснованные решения на основе данных с помощью ручного маркирования и масштабируемых автоматических оценщиков LLM в роли судьи.