スパースゲート型混合エキスパート (MoE) ノート
RSS Eli Benderskyの

スパースゲート型混合エキスパート (MoE)

変圧器モデルでは、 アテンションブロック の後に通常、フィードフォワード層 (FF) が続きます。これは、隠れ層と非線形性を持つシンプルな全結合 NN です。ReLU を使用するそのようなブロックのコードは次のとおりです。def feed_forward_relu(x, W1, W2): """ReLU 活性化関数を持つフィードフォワード層。引数: x: 入力 …"""