RSS VentureBeat
팔로우
온디바이스 AI 에이전트는 엄격한 메모리 제한에 부딪힙니다. Apple의 새로운 아키텍처는 이를 우회합니다.
온디바이스 AI 모델은 DRAM 용량에 의해 제한되어 크기와 성능이 제약되었습니다. Apple의 새로운 AFM 3 파운데이션 모델은 모델 가중치를 DRAM 대신 NAND 플래시 메모리에 저장함으로써 이러한 문제를 해결합니다. AFM 3 제품군은 Google과의 협력으로 개발되었으며 Apple의 Private Cloud Compute 내에서 작동하는 온디바이스 및 서버 기반 모델을 모두 포함합니다. 온디바이스 AFM 3 Core Advanced는 200억 개의 매개변수를 가진 모델로, 느린 NAND-to-DRAM 대역폭을 극복하기 위해 새로운 아키텍처를 활용합니다. 모든 토큰을 처리하는 대신, 프롬프트당 한 번 라우팅 결정을 내립니다. 이를 통해 특정 작업에 대해 플래시에서 DRAM으로 특정 "전문가"를 로드할 수 있습니다. 활성 매개변수의 수는 요청의 복잡성에 따라 10억 개에서 40억 개까지 확장될 수 있습니다. Apple의 기술 보고서는 메모리 설계를 자세히 설명하지만, 에너지, 열 제약 및 클라우드로의 투명한 오프로딩에 대한 중요한 정보가 누락되었습니다. 이 격차는 추론 위치를 문서화해야 하는 규제 대상 기업에게 규정 준수 문제를 야기합니다. AFM 3 Core Advanced의 도입은 기업에게 훨씬 더 강력한 온디바이스 AI 옵션을 제공합니다. 그러나 대규모 배포 가능성은 향후 기술 보고서에서 예상되는 추가 세부 정보에 달려 있습니다. 이제 온디바이스 및 클라우드 기반 추론 간의 선택은 기업에게 더욱 미묘한 아키텍처 결정이 됩니다.