RSS Eli Benderskyの フォロー スパースゲート型混合エキスパート (MoE) 変圧器モデルでは、 アテンションブロック の後に通常、フィードフォワード層 (FF) が続きます。これは、隠れ層と非線形性を持つシンプルな全結合 NN です。ReLU を使用するそのようなブロックのコードは次のとおりです。def feed_forward_relu(x, W1, W2): """ReLU 活性化関数を持つフィードフォワード層。引数: x: 入力 …""" Sparsely-gated Mixture Of Experts (MoE) eli.thegreenplace.net