RSS de Eli Bendersky
Seguir
Mezcla de Expertos con Compuerta Dispersa (MoE)
"En los modelos de transformador, el
bloque de atención
generalmente es seguido por una capa feed forward (FF), que es una simple
red neuronal (NN) totalmente conectada con una capa oculta y no linealidad. Aquí
está el código para tal bloque que
usa ReLU:def feed_forward_relu(x, W1, W2):
"""Capa feed-forward con activación ReLU.Args:
x: Entrada …"