대규모 언어 모델(LLM) 코딩 경쟁은 점점 치열해지고 있습니다. Alibaba, Anthropic, Google, Meta, Mistral, OpenAI 및 xAI와 같은 주요 플레이어가 각자의 모델을 제공하고 있습니다. 이러한 모델을 평가하려면 HumanEval 벤치마크에서 코딩 작업 성능을 살펴보거나 실제 세계 성능을 반영하는 Elo 점수를 확인할 수 있습니다. OpenAI의 모델은 성능에서 지배적입니다. 최고 모델은 최고의 비-OpenAI 모델보다 46 Elo 점과 3.9%의 HumanEval에서 더 나은 성능을 보여줍니다. 흥미롭게도 Google의 모델은 보고된 것보다 훨씬 더 잘 수행됩니다. 가장 최근의 Gemini 1.5 Pro 모델은 이 점에서 최고의 성과를 나타냅니다. 한편, Alibaba와 Mistral은 벤치마크에 과적합하는 모델을 생성하여 벤치마크에서 실제보다 더 잘 수행합니다. 성능과 가격을 모두 고려할 때 OpenAI와 Google 모델이 Pareto 전면을 구성합니다. OpenAI는 높은 성능을 제공하고 Google는 경량화된 저렴한 모델에 초점을 맞추고 있습니다. 시간이 지나면서 모델은 더 나아지고 저렴해지고 있습니다. 소유 모델이 시장 지배를 지속하고 있습니다. 심지어 소규모 모델 업데이트도 성능에 큰 영향을 미칩니다.
towardsdatascience.com
LLMs for Coding in 2024: Price, Performance, and the Battle for the Best
