Flux RSS Slashdot

Les chercheurs de Microsoft développent un modèle d'IA hyper-efficace qui peut fonctionner sur des CPU.

Microsoft a introduit BitNet b1.58 2B4T, un modèle d'IA 1-bit à grande échelle avec 2 milliards de paramètres, capable de fonctionner efficacement sur les CPU. Le modèle est disponible en open source sous une licence MIT, ce qui permet une utilisation et un développement généralisés. Selon les chercheurs de Microsoft, BitNet b1.58 2B4T est le premier bitnet doté de 2 milliards de paramètres, qui sont en grande partie synonymes de poids. Le modèle a été entraîné sur un ensemble de données massif de 4 billions de tokens, ce qui équivaut à environ 33 millions de livres. Cet entraînement permet à BitNet b1.58 2B4T de surpasser les modèles traditionnels de taille similaire, selon les chercheurs. La performance du modèle est remarquable, car il se défend bien face aux modèles rivaux de 2 milliards de paramètres, bien qu'il ne les surpasse pas de manière significative. BitNet b1.58 2B4T dépasse d'autres modèles, notamment Llama 3.2 1B de Meta et Gemma 3 1B de Google, sur certains benchmarks. La vitesse et l'efficacité du modèle sont également impressionnantes, car il est deux fois plus rapide que les autres modèles de sa taille tout en utilisant une fraction de la mémoire. Cependant, l'obtention de ces performances nécessite l'utilisation du framework personnalisé de Microsoft, bitnet.cpp, qui ne fonctionne actuellement qu'avec certains matériels. La compatibilité limitée du framework, excluant les GPU, pourrait être une limitation importante pour l'adoption généralisée de BitNet b1.58 2B4T.
favicon
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
favicon
slashdot.org
Microsoft Researchers Develop Hyper-Efficient AI Model That Can Run On CPUs
Create attached notes ...