在 LLM(大语言模型)中,MoE 通常是指用 MoE 层替换 Transformer 模型中的 FFN(前馈神经网络)层,如下图所示: 图 1. MoE 层示意图,图片来自 GShard 论文[5] 具体来说,左侧展示的是由 N 个 Transformer 层组成的堆叠结构,每层包含一个 MHA(多头注意力)子层和一个 FFN ...