Anthropic:
Anthropicは、Claudeのバイオインフォマティクススキルを人間の専門家と比較するためのBioMysteryBenchを発表し、Mythosが専門家を困惑させた23の質問のうち約30%を解決したと述べています。この投稿では、ディスカバリーチームの研究者であるBriannaが、最近のバイオインフォマティクスベンチマーキングの取り組みの結果を共有しています。
techmeme.com
Anthropic unveils BioMysteryBench to test Claude's bioinformatics skills against human experts, and says Mythos solved ~30% of 23 questions that stumped experts (Anthropic)
