Dette arbejde fokuserer på at reducere neural network-størrelsen, som er en vigtig driver for neural network-eksekveringstid, strømforbrug, båndbredde og hukommelsesaftryk. En central udfordring er at reducere størrelsen på en måde, der kan udnyttes effektivt til effektiv træning og inferens uden behov for specialiseret hardware. Vi foreslår Selv-Kompression: en simpel, generel metode, der samtidig opnår to mål: (1) fjernelse af overflødige vægte og (2) reduktion af antallet af bits, der kræves for at repræsentere de resterende vægte. Dette opnås ved hjælp af en generaliseret tab-funktion til at minimere den samlede network-størrelse. I vores eksperimenter demonstrerer vi flydende punkt-nøjagtighed med så få som 3% af bits og 18% af vægterne tilbage i netværket.
arxiv.org
Self-Compressing Neural Networks
Create attached notes ...