Das Landschaftsbild großer Sprachmodelle (LLMs) für das Coden ist immer wettbewerbsfähiger geworden, mit großen Spielern wie Alibaba, Anthropic, Google, Meta, Mistral, OpenAI und xAI, die jeweils ihre eigenen Modelle anbieten. Um diese Modelle zu evaluieren, können wir uns ihre Leistung bei Codierungsaufgaben ansehen, wie sie von Benchmarks wie HumanEval gemessen werden, und ihre beobachtete reale Leistung, die durch ihre jeweiligen Elo-Punkte widergespiegelt wird. OpenAIs Modelle dominieren bei der Leistung, wobei das Topmodell von OpenAI das beste Nicht-OpenAI-Modell um 46 Elo-Punkte und 3,9% bei HumanEval übertrifft. Interessanterweise erbringen Googles Modelle signifikant bessere Leistungen, als berichtet, wobei das neueste Gemini 1.5 Pro-Modell von Google der beste Leistungsträger in diesem Bereich ist. Währenddessen neigen Alibaba und Mistral dazu, Modelle zu erstellen, die sich auf den Benchmark überanpassen, indem sie besser auf Benchmarks performen als im echten Leben. Wenn man sowohl Leistung als auch Preis betrachtet, bilden OpenAI- und Google-Modelle die Pareto-Front, wobei OpenAI hohe Leistung anbietet und Google sich auf leichtere, kostengünstigere Modelle konzentriert. Im Laufe der Zeit werden die Modelle besser und kostengünstiger, wobei proprietäre Modelle weiterhin den Markt dominieren. Selbst kleine Modellaktualisierungen können die Leistung erheblich beeinflussen.
towardsdatascience.com
LLMs for Coding in 2024: Price, Performance, and the Battle for the Best
Create attached notes ...
