12 миллионов токенов, линейная стоимость: ставка Subquadratic против налога на внимание

Квадратичный механизм внимания в больших языковых моделях создал ограничения, вынуждая разработчиков использовать обходные пути, такие как Retrieval-Augmented Generation (RAG). Subquadratic, новый стартап, представляет модель, использующую Subquadratic Selective Attention (SSA), которая заявляет о линейном масштабировании вычислений и памяти в зависимости от длины контекста. Это позволяет использовать окно контекста в 12 миллионов токенов, доступное сейчас через их API. SSA решает квадратичное узкое место плотного внимания, выборочно обрабатывая релевантные комбинации токенов, основанные на содержании. Бенчмарки компании показывают значительные улучшения по сравнению с существующими моделями в таких областях, как MRCR v2, Needle-in-a-haystack и SWE-Bench. Если линейное масштабирование SSA окажется правдой, это революционизирует экономику RAG и агентных систем, в настоящее время ограниченных стоимостью длинных контекстов. Однако рекомендуется проявлять осторожность из-за истории амбициозных заявлений в этой области и меньшего размера модели Subquadratic по сравнению с самыми большими. Пользователям следует протестировать API Subquadratic, особенно если они активно используют RAG или задачи с длинным контекстом. Subquadratic также предлагает кодирующего агента и планирует выпустить модель с окном контекста в 50 миллионов токенов позже. В конечном итоге, технические возможности кажутся многообещающими, но необходима здоровая доля скептицизма.

12 million tokens, linear cost: Subquadratic's bet against the attention tax dev.to

RSS Hunter • 6 мая