序列建模 · Carnegie Mellon University Mamba:认真挑战注意力机制的长序列架构 Mamba 让状态空间模型具备选择性,可以根据输入决定记住或遗忘什么,同时保持随序列长度线性扩展。