Dette arbeidet fokuserer på å redusere størrelsen på neurale nettverk, som er en stor driver for neurale nettverk-eksekveringstid, strømforbruk, båndbredde og minneavtrykk. En nøkkelutfordring er å redusere størrelsen på en måte som kan utnyttes lett for effektiv trening og inferens uten behov for spesialisert utstyr. Vi foreslår Sjøl-Compression: en enkel, generell metode som samtidig oppnår to mål: (1) fjerner overflødige vekter, og (2) reduserer antallet bits nødvendig for å representere de gjenværende vektene. Dette oppnås ved å bruke en generalisert tapfunksjon til å minimere totalt nettverkstørrelse. I våre eksperimenter demonstrerer vi flytende punkt-nøyaktighet med så få som 3% av bits og 18% av vektene igjen i nettverket.
arxiv.org
Self-Compressing Neural Networks
Create attached notes ...