RSS von Eli Bendersky
Folgen
Dünn-geschaltetes Gemisch von Experten (MoE)
In Transformer-Modellen folgt dem
Aufmerksamkeitsblock
typischerweise eine Feed-Forward-Schicht (FF), die ein einfaches, vollständig verbundenes
NN mit einer verborgenen Schicht und einer Nichtlinearität ist. Hier ist der Code für einen solchen Block, der
ReLU verwendet:def feed_forward_relu(x, W1, W2):
"""Feed-Forward-Schicht mit ReLU-Aktivierung.Args:
x: Eingabe …"