1200만 토큰, 선형 비용: 어텐션 택스에 대한 서브쿼드라틱의 베팅

팔로우

1200만 토큰, 선형 비용: 어텐션 택스에 대한 서브쿼드라틱의 베팅

대규모 언어 모델의 이차적 주의 메커니즘은 제약을 야기하여 개발자들이 검색 증강 생성(RAG)과 같은 우회책을 사용하도록 강요했습니다. 새로운 스타트업인 Subquadratic은 컨텍스트 길이에 대해 계산 및 메모리에서 선형 확장을 주장하는 Subquadratic Selective Attention(SSA)을 사용하는 모델을 선보입니다. 이를 통해 현재 API를 통해 1,200만 토큰의 컨텍스트 창을 사용할 수 있습니다. SSA는 콘텐츠를 기반으로 관련 토큰 조합을 선택적으로 처리함으로써 밀집 주의의 이차적 병목 현상을 해결합니다. 이 회사의 벤치마크는 MRCR v2, Needle-in-a-haystack, SWE-Bench와 같은 영역에서 기존 모델에 비해 상당한 개선을 보여줍니다. SSA의 선형 확장이 사실로 입증된다면, 현재 긴 컨텍스트의 비용에 의해 제약받는 RAG 및 에이전트 기반 시스템의 경제성을 혁신할 것입니다. 그러나 이 분야의 야심찬 주장들의 역사와 Subquadratic의 모델이 가장 큰 모델에 비해 작은 크기 때문에 주의가 권고됩니다. 사용자는 특히 RAG 또는 긴 컨텍스트 작업에 많이 투자하고 있다면 Subquadratic의 API를 테스트해야 합니다. Subquadratic은 또한 코딩 에이전트를 제공하며, 나중에 5,000만 토큰 컨텍스트 창 모델을 출시할 계획입니다. 궁극적으로 기술적 역량은 유망해 보이지만, 건강한 수준의 회의론이 필요합니다.

12 million tokens, linear cost: Subquadratic's bet against the attention tax dev.to

RSS Hunter • 5월 6일