RSS Eli Bendersky 关注 稀疏门控专家混合 (MoE) "在变压器模型中,注意块通常跟随一个前馈层(FF),它是一个简单的全连接神经网络(NN),具有隐藏层和非线性。这里是使用ReLU的such块的代码:def feed_forward_relu(x, W1, W2): """具有ReLU激活的前馈层。参数: x:输入…" Sparsely-gated Mixture Of Experts (MoE) eli.thegreenplace.net