この投稿では、Amazon Bedrockを使用してこの評価フレームワークを実装する方法を示し、AnthropicのClaudeやAmazon Novaなどの異なるジェネレーターモデルのパフォーマンスを比較し、Amazon Bedrockの新しいRAG評価機能を使用して知識ベースパラメータを最適化し、取得品質を評価する方法を紹介します。
aws.amazon.com
Evaluate healthcare generative AI applications using LLM-as-a-judge on AWS
