온디바이스 AI 에이전트는 엄격한 메모리 제한에 부딪힙... 노트
RSS VentureBeat

온디바이스 AI 에이전트는 엄격한 메모리 제한에 부딪힙니다. Apple의 새로운 아키텍처는 이를 우회합니다.

온디바이스 AI 모델은 DRAM 용량에 의해 제한되어 크기와 성능이 제약되었습니다. Apple의 새로운 AFM 3 파운데이션 모델은 모델 가중치를 DRAM 대신 NAND 플래시 메모리에 저장함으로써 이러한 문제를 해결합니다. AFM 3 제품군은 Google과의 협력으로 개발되었으며 Apple의 Private Cloud Compute 내에서 작동하는 온디바이스 및 서버 기반 모델을 모두 포함합니다. 온디바이스 AFM 3 Core Advanced는 200억 개의 매개변수를 가진 모델로, 느린 NAND-to-DRAM 대역폭을 극복하기 위해 새로운 아키텍처를 활용합니다. 모든 토큰을 처리하는 대신, 프롬프트당 한 번 라우팅 결정을 내립니다. 이를 통해 특정 작업에 대해 플래시에서 DRAM으로 특정 "전문가"를 로드할 수 있습니다. 활성 매개변수의 수는 요청의 복잡성에 따라 10억 개에서 40억 개까지 확장될 수 있습니다. Apple의 기술 보고서는 메모리 설계를 자세히 설명하지만, 에너지, 열 제약 및 클라우드로의 투명한 오프로딩에 대한 중요한 정보가 누락되었습니다. 이 격차는 추론 위치를 문서화해야 하는 규제 대상 기업에게 규정 준수 문제를 야기합니다. AFM 3 Core Advanced의 도입은 기업에게 훨씬 더 강력한 온디바이스 AI 옵션을 제공합니다. 그러나 대규모 배포 가능성은 향후 기술 보고서에서 예상되는 추가 세부 정보에 달려 있습니다. 이제 온디바이스 및 클라우드 기반 추론 간의 선택은 기업에게 더욱 미묘한 아키텍처 결정이 됩니다.