Detta arbete fokuserar på att minska storleken på neurala nätverk, vilket är en stor drivkraft bakom neurala nätverks exekveringstid, energiförbrukning, bandbredd och minnesavtryck. En nyckelutmaning är att minska storleken på ett sätt som kan utnyttjas effektivt för träning och inferens utan behov av specialiserad hårdvara. Vi föreslår Självkomprimering: en enkel, generell metod som samtidigt uppnår två mål: (1) ta bort redundanta vikter, och (2) minska antalet bitar som krävs för att representera de kvarvarande vikterna. Detta uppnås genom att minimera den totala nätverksstorleken med hjälp av en generaliserad förlustfunktion. I våra experiment visar vi att det är möjligt att uppnå flyttal precision med så få som 3% av bitarna och 18% av vikterna kvar i nätverket.
arxiv.org
Self-Compressing Neural Networks
Create attached notes ...