희소 게이팅 혼합 전문가 모델 (MoE) 노트

희소 게이팅 혼합 전문가 모델 (MoE)

"트랜스포머 모델에서는 일반적으로 주의 블록 다음에 피드 포워드 레이어(FF)가 있습니다. 이는 숨겨진 계층과 비선형성을 가진 단순한 완전히 연결된 NN입니다. 여기에는 ReLU를 사용하는 그러한 블록의 코드가 있습니다.def feed_forward_relu(x, W1, W2): """ReLU 활성화를 사용하는 피드 포워드 레이어.인수: x: 입력 …"