Experimente

Das frühzeitige Beschneiden von Subnetzwerken in Transformatoren reduziert den Speicherbedarf um bis zu 49% und erhält die Leistung aufrecht. Dies validiert eine schnellere Trainingsstrategie für ViT und GPT-2.