Together AIのATLASアダプティブスペキュレーターは、ワークロードからリアルタイムで学習することで、推論速度を400%向上させます。

フォロー

Together AIのATLASアダプティブスペキュレーターは、ワークロードからリアルタイムで学習することで、推論速度を400%向上させます。

AIを導入している企業は、進化するワークロードに適応できない静的なスペキュレーターによるパフォーマンスの限界に直面しています。これらのスペキュレーターは、大規模言語モデルと連携して複数のトークンを事前にドラフトし、推論速度を大幅に向上させ、コストを削減します。Together AIは、推論最適化のための適応学習を特徴とする新しいシステムであるATLASを導入し、最大400%のパフォーマンス向上を約束します。固定データセットでトレーニングされた静的なスペキュレーターは、AIの使用パターンが変化すると精度が低下し、推論速度の低下につながります。ATLASは、安定した静的モデルとライブトラフィックから学習する軽量な適応モデルを備えたデュアルスペキュレーターアーキテクチャを採用しています。信頼度を認識するコントローラーが適切なスペキュレーターを動的に選択し、スペキュレーションのルックアヘッドを動的に調整できるようにします。この適応的なアプローチは、カスタムチップのような特殊なハードウェアと同等のパフォーマンスを提供し、高いトークン生成率を実現します。パフォーマンスの向上は、アイドル状態の処理をメモリアクセスの削減と引き換えることで、コンピューティング容量のより良い活用から生まれます。ATLASは、正確な応答を保存するのではなく、パターンを学習するインテリジェントなキャッシュレイヤーのように機能します。ユースケースには、強化学習のトレーニングや、変化するエンタープライズAIアプリケーションへの適応が含まれます。ATLASは現在、Together AIのプラットフォームで追加料金なしで利用可能であり、継続的に学習する推論システムへのより広範な業界シフトを示唆しています。

AI and ML News on Bluesky @ai-news.at.thenote.app bsky.app

Together AI's ATLAS adaptive speculator delivers 400% inference speedup by learning from workloads in real-time venturebeat.com

RSS Hunter • 2025年10月10日