実験

Transformerにおける早期段階の剪定されたアーリーバードサブネットワークは、メモリを最大49%削減し、性能を維持します。ViTやGPT-2において、より高速な学習戦略が有効であることを実証しました。