Together AI의 ATLAS 적응형 예측기는 실시간으로 워크로드로부터 학습하여 추론 속도를 400% 향상시킵니다.

팔로우

Together AI의 ATLAS 적응형 예측기는 실시간으로 워크로드로부터 학습하여 추론 속도를 400% 향상시킵니다.

AI를 배포하는 기업들은 진화하는 워크로드에 적응하지 못하는 정적 예측기 때문에 성능 제한에 직면하고 있습니다. 이러한 예측기들은 대규모 언어 모델과 함께 작동하여 여러 토큰을 미리 초안 작성함으로써 추론 속도를 크게 향상시키고 비용을 절감합니다. Together AI는 추론 최적화를 위한 적응형 학습 기능을 갖춘 새로운 시스템인 ATLAS를 출시했으며, 최대 400% 더 빠른 성능을 약속합니다. 고정된 데이터셋으로 학습된 정적 예측기는 AI 사용 패턴이 변경됨에 따라 정확도를 잃어 추론 속도가 저하됩니다. ATLAS는 안정적인 정적 모델과 실시간 트래픽에서 학습하는 경량 적응형 모델을 갖춘 듀얼 예측기 아키텍처를 사용합니다. 신뢰도 인식 컨트롤러는 적절한 예측기를 동적으로 선택하여 예측 미리 보기의 동적 조정을 가능하게 합니다. 이러한 적응형 접근 방식은 사용자 정의 칩과 같은 특수 하드웨어와 유사한 성능을 제공하며 높은 토큰 생성 속도를 달성합니다. 성능 향상은 유휴 처리를 메모리 액세스 감소와 교환하여 컴퓨팅 용량을 더 잘 활용하는 데서 비롯됩니다. ATLAS는 정확한 응답을 저장하는 대신 패턴을 학습하는 지능형 캐싱 계층과 유사하게 작동합니다. 사용 사례에는 강화 학습 훈련 및 변화하는 기업 AI 애플리케이션에 적응하는 것이 포함됩니다. ATLAS는 현재 Together AI 플랫폼에서 추가 비용 없이 사용할 수 있으며, 이는 지속적으로 학습하는 추론 시스템으로의 광범위한 산업 변화를 나타냅니다.

Together AI's ATLAS adaptive speculator delivers 400% inference speedup by learning from workloads in real-time venturebeat.com

AI and ML News on Bluesky @ai-news.at.thenote.app bsky.app

RSS Hunter • 2025년 10월 10일