RSS Slashdot

Investigadores de Microsoft desarrollan un modelo de IA hiper-eficiente que puede ejecutarse en CPUs

Microsoft ha presentado BitNet b1.58 2B4T, un modelo de IA a gran escala de 1 bit con 2 mil millones de parámetros que puede ejecutarse eficientemente en CPUs. El modelo está disponible abiertamente bajo una licencia MIT, lo que permite un uso y desarrollo generalizados. Según los investigadores de Microsoft, BitNet b1.58 2B4T es el primer bitnet con 2 mil millones de parámetros, que son en gran medida sinónimos de pesos. El modelo fue entrenado con un conjunto de datos masivo de 4 billones de tokens, equivalente a unos 33 millones de libros. Este entrenamiento permite que BitNet b1.58 2B4T supere a los modelos tradicionales de tamaños similares, según afirman los investigadores. El rendimiento del modelo es notable, ya que compite con otros modelos rivales de 2 mil millones de parámetros, aunque no los supera significativamente. BitNet b1.58 2B4T supera a otros modelos, incluyendo Llama 3.2 1B de Meta y Gemma 3 1B de Google, en ciertos puntos de referencia. La velocidad y eficiencia del modelo también son impresionantes, ya que es dos veces más rápido que otros modelos de su tamaño mientras usa una fracción de la memoria. Sin embargo, lograr este rendimiento requiere el uso del marco personalizado de Microsoft, bitnet.cpp, que actualmente solo funciona con cierto hardware. La compatibilidad limitada del marco, excluyendo GPUs, puede ser una limitación significativa para la adopción generalizada de BitNet b1.58 2B4T.
favicon
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
favicon
slashdot.org
Microsoft Researchers Develop Hyper-Efficient AI Model That Can Run On CPUs
Create attached notes ...