Este trabalho se concentra em reduzir o tamanho da rede neural, que é um dos principais fatores que influenciam no tempo de execução, consumo de energia, largura de banda e pegada de memória da rede neural. Um desafio importante é reduzir o tamanho de maneira que possa ser facilmente explorada para treinamento e inferência eficientes sem a necessidade de hardware especializado. Propomos a Auto-Compressão: um método simples e geral que alcança simultaneamente dois objetivos: (1) remoção de pesos redundantes e (2) redução do número de bits necessários para representar os pesos restantes. Isso é alcançado usando uma função de perda generalizada para minimizar o tamanho geral da rede. Em nossos experimentos, demonstramos precisão de ponto flutuante com tão poucos quanto 3% dos bits e 18% dos pesos restantes na rede.
arxiv.org
Self-Compressing Neural Networks
Create attached notes ...