この投稿では、事実的な知識と質の評価のために質問応答アプリケーションを評価する際の基礎モデル評価ライブラリ(FMEval)での作業のベストプラクティスについて話し合います。特に、GROUND TRUTHのキュレーションとメトリックの解釈に関する部分を中心としています。
aws.amazon.com
Ground truth curation and metric interpretation best practices for evaluating generative AI question answering using FMEval