RSS Towards Data Science - Medium

2024年のコーディングLLM:価格、パフォーマンス、ベストをめぐる戦い

大規模言語モデル(LLM)によるプログラミングの分野は、Alibaba、Anthropic、Google、Meta、Mistral、OpenAI、xAIなどの主要企業がそれぞれのモデルを提供することで、競争が激化しています。これらのモデルを評価するには、HumanEvalなどのベンチマークによるコーディングタスクのパフォーマンスと、それぞれのEloスコアによって反映される現実世界でのパフォーマンスを考慮することができます。OpenAIのモデルはパフォーマンスで優れており、トップモデルは最高の非OpenAIモデルよりも46 Eloポイント、3.9%のHumanEvalで優れています。興味深いことに、Googleのモデルは報告されているよりも大幅に優れており、新しいGemini 1.5 Proモデルはこの点でトップパフォーマーとなっています。一方、AlibabaとMistralはベンチマークに過剰適合する傾向があり、ベンチマークでは優れていますが、現実世界ではそれほど優れてはいません。パフォーマンスと価格の両方を考慮すると、OpenAIとGoogleのモデルはパレートフロントを形成しており、OpenAIは高パフォーマンスを提供し、Googleは軽量で安価なモデルに焦点を当てています。時間の経過とともに、モデルはより優れており、より安くなっています。プロプライエタリモデルは市場を支配し続けています。ささいなモデルアップデートでも、パフォーマンスに大きな影響を与えることがあります。
favicon
towardsdatascience.com
LLMs for Coding in 2024: Price, Performance, and the Battle for the Best
Create attached notes ...