RSS Элай Бендерски
Подписаться
Редкошлюзованная смесь экспертов (MoE)
В моделях-трансформерах, за
блоком внимания
обычно следует слой прямой связи (FF), который представляет собой простую полносвязную
нейронную сеть со скрытым слоем и нелинейностью. Вот код для такого блока, который
использует ReLU:def feed_forward_relu(x, W1, W2):
"""Слой прямой связи с активацией ReLU.Аргументы:
x: Входные данные…"