オンデバイスAIエージェントは厳しいメモリ制限に直面しています。Appleの新しいアーキテクチャはそれを回避します。

フォロー

オンデバイスAIエージェントは厳しいメモリ制限に直面しています。Appleの新しいアーキテクチャはそれを回避します。

オンデバイスAIモデルは、DRAM容量によって制限され、そのサイズと能力が制約されていました。Appleの新しいAFM 3基盤モデルは、モデルの重みをDRAMではなくNANDフラッシュメモリに格納することで、この問題に対処します。AFM 3ファミリーには、Googleとの協力により開発され、AppleのPrivate Cloud Compute内で動作する、オンデバイスモデルとサーバーベースモデルの両方が含まれます。オンデバイスのAFM 3 Core Advancedは、200億パラメータのモデルであり、NANDからDRAMへの帯域幅の遅さを克服するために新しいアーキテクチャを利用しています。すべてのトークンを処理するのではなく、プロンプトごとに一度ルーティング決定を行います。これにより、特定のタスクのためにフラッシュからDRAMに特定の「エキスパート」をロードすることができます。アクティブなパラメータ数は、リクエストの複雑さに応じて10億から40億までスケーリングできます。Appleの技術レポートはメモリ設計の詳細を説明していますが、エネルギー、熱的制約、およびクラウドへの透過的なオフロードに関する重要な情報が欠けています。このギャップは、推論場所を文書化する必要がある規制対象企業にとって、コンプライアンス上の課題を提起します。AFM 3 Core Advancedの導入は、企業に大幅に能力の高いオンデバイスAIオプションを提供します。しかし、その大規模な展開可能性は、今後の技術レポートで期待されるさらなる詳細にかかっています。オンデバイスとクラウドベースの推論の選択は、現在、企業にとってより微妙なアーキテクチャ上の決定となっています。

On-device AI agents hit a hard memory limit. Apple's new architecture routes around it. venturebeat.com

RSS Hunter • 6月9日