Le paysage des grands modèles de langage (LLM) pour la programmation est devenu de plus en plus compétitif, avec des acteurs majeurs tels qu'Alibaba, Anthropic, Google, Meta, Mistral, OpenAI et xAI proposant leurs propres modèles. Pour évaluer ces modèles, nous pouvons examiner leurs performances dans les tâches de programmation mesurées par des benchmarks tels que HumanEval, et leurs performances réelles observées dans le monde réel, reflétées par leurs scores Elo respectifs. Les modèles d'OpenAI dominent en termes de performance, leur modèle le plus performant surpassant le meilleur modèle non-OpenAI de 46 points Elo et de 3,9 % dans HumanEval. Il est intéressant de noter que les modèles de Google performent significativement mieux que rapporté, leur modèle Gemini 1.5 Pro le plus récent étant le meilleur performer dans ce domaine. Pendant ce temps, Alibaba et Mistral ont tendance à créer des modèles qui surapprennent le benchmark, performant mieux sur les benchmarks que dans la vie réelle. Lorsque l'on considère à la fois la performance et le prix, les modèles d'OpenAI et de Google constituent le front de Pareto, OpenAI offrant des performances élevées et Google se concentrant sur des modèles plus légers et moins chers. Au fil du temps, les modèles s'améliorent et deviennent moins chers, les modèles propriétaires continuant à dominer le marché. Même les mises à jour mineures des modèles peuvent avoir un impact significatif sur les performances.
towardsdatascience.com
LLMs for Coding in 2024: Price, Performance, and the Battle for the Best
Create attached notes ...
