Оценка приложений генеративного ИИ в здравоохранении с использованием LLM в качестве судьи на AWS

В этом посте мы покажем, как реализовать эту оценочную систему с помощью Amazon Bedrock, сравним производительность различных моделей генерации, включая Anthropic Claude и Amazon Nova на Amazon Bedrock, и продемонстрируем, как использовать новую функцию оценки RAG для оптимизации параметров базы знаний и оценки качества поиска информации.