滑铁卢大学计算机科学助理教授陈文虎(Wenhu Chen)最近发帖,盘点了一下最近的几款 Mamba-Transformer 模型。我们对他的盘点进行了整理,希望能带给大家一些启发。 在过去的一两年中,Transformer 架构不断面临来自新兴架构的挑战。 在众多非 Transformer 架构中,Mamba ...