RSS 슬래시닷

마이크로소프트 연구진, CPU에서 실행 가능한 초고효율 AI 모델 개발

마이크로소프트는 CPU에서 효율적으로 실행될 수 있는 20억 개의 파라미터를 가진 대규모 1비트 AI 모델인 BitNet b1.58 2B4T를 발표했습니다. 이 모델은 MIT 라이선스 하에 공개적으로 이용할 수 있어 광범위한 사용과 개발이 가능합니다. 마이크로소프트 연구원들에 따르면, BitNet b1.58 2B4T는 가중치와 거의 동의어인 20억 개의 파라미터를 가진 최초의 비트넷입니다. 이 모델은 약 3300만 권의 책에 해당하는 4조 개의 토큰으로 이루어진 방대한 데이터 세트에서 훈련되었습니다. 연구원들의 주장에 따르면, 이러한 훈련을 통해 BitNet b1.58 2B4T는 비슷한 크기의 기존 모델보다 더 나은 성능을 보입니다. 이 모델의 성능은 경쟁 20억 파라미터 모델과 견줄 만하며, 크게 뛰어넘지는 않지만 주목할 만합니다. BitNet b1.58 2B4T는 특정 벤치마크에서 메타의 Llama 3.2 1B 및 구글의 Gemma 3 1B를 포함한 다른 모델을 능가합니다. 모델의 속도와 효율성도 인상적이며, 다른 모델과 동일한 크기에서 메모리를 훨씬 적게 사용하면서 2배 더 빠릅니다. 그러나 이러한 성능을 달성하려면 현재 특정 하드웨어에서만 작동하는 마이크로소프트의 맞춤형 프레임워크인 bitnet.cpp를 사용해야 합니다. GPU를 제외한 프레임워크의 제한적인 호환성은 BitNet b1.58 2B4T의 광범위한 채택에 상당한 제약이 될 수 있습니다.
favicon
slashdot.org
Microsoft Researchers Develop Hyper-Efficient AI Model That Can Run On CPUs
favicon
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app