Dit werk richt zich op het verkleinen van de grootte van neurale netwerken, wat een belangrijke drijvende kracht is achter de uitvoeringstijd, stroomverbruik, bandbreedte en geheugenvoetafdruk van neurale netwerken. Een belangrijke uitdaging is om de grootte te verkleinen op een manier die gemakkelijk kan worden gebruikt voor efficiënte training en inferentie zonder de noodzaak van gespecialiseerde hardware. We stellen een methode voor genaamd Self-Compression: een eenvoudige, algemene methode die tegelijkertijd twee doelen bereikt: (1) overbodige gewichten verwijderen en (2) het aantal bits verminderen dat nodig is om de resterende gewichten te vertegenwoordigen. Dit wordt bereikt door een generaliseerde verliesfunctie te minimaliseren om de algehele netwerkgrootte te minimaliseren. In onze experimenten laten we zien dat we floating point-accuratesheid kunnen bereiken met slechts 3% van de bits en 18% van de gewichten die nog in het netwerk overblijven.
arxiv.org
Self-Compressing Neural Networks
Create attached notes ...