Ландшафт больших языковых моделей (БЯМ) для кодирования стал все более конкурентным, с участием крупных игроков, таких как Alibaba, Anthropic, Google, Meta, Mistral, OpenAI и xAI, которые предлагают свои собственные модели. Чтобы оценить эти модели, мы можем рассмотреть их производительность в задачах кодирования, измеренную с помощью бенчмарков, таких как HumanEval, и их наблюдаемую производительность в реальном мире, отраженную их соответствующими рейтингами Elo. Модели OpenAI доминируют по производительности, с их лучшей моделью, которая превосходит лучшую не-OpenAI модель на 46 пунктов Elo и на 3,9% в HumanEval. Интересно, что модели Google работают значительно лучше, чем сообщалось, с их новейшей моделью Gemini 1.5 Pro, которая является лучшим исполнителем в этом отношении. Между тем, Alibaba и Mistral склонны создавать модели, которые переобучаются на бенчмарке, демонстрируя лучшую производительность на бенчмарках, чем в реальной жизни. При рассмотрении как производительности, так и цены, модели OpenAI и Google составляют фронтир Парето, с OpenAI, предлагающим высокую производительность, и Google, фокусирующимся на более легких и дешевых моделях. Со временем модели становятся лучше и дешевле, с проприетарными моделями, продолжающими доминировать на рынке. Даже незначительные обновления моделей могут значительно повлиять на производительность.
towardsdatascience.com
LLMs for Coding in 2024: Price, Performance, and the Battle for the Best
