Ce travail se concentre sur la réduction de la taille des réseaux de neurones, qui est un facteur majeur du temps d'exécution, de la consommation d'énergie, de la bande passante et de l'empreinte mémoire des réseaux de neurones. Un défi clé est de réduire la taille de manière que cela puisse être exploité efficacement pour l'entraînement et l'inférence sans nécessiter d'équipement spécialisé. Nous proposons l'auto-compression : une méthode simple et générale qui réalise simultanément deux objectifs : (1) supprimer les poids redondants, et (2) réduire le nombre de bits requis pour représenter les poids restants. Cela est réalisé en utilisant une fonction de perte généralisée pour minimiser la taille globale du réseau. Dans nos expériences, nous démontrons une précision en virgule flottante avec aussi peu que 3% des bits et 18% des poids restants dans le réseau.
arxiv.org
Self-Compressing Neural Networks
Create attached notes ...