序列建模 · 高效 AI · 长上下文

Mamba:认真挑战注意力机制的长序列架构

Mamba 让状态空间模型具备选择性,可以根据输入决定记住或遗忘什么,同时保持随序列长度线性扩展。

解决什么问题

Transformer 主导基础模型,但注意力在长序列上成本很高。许多高效替代架构扩展性更好,却很难在语言等离散模态上达到注意力的效果。Mamba 瞄准的就是这个缺口:构建一个线性扩展的序列模型,同时保留足够的基于内容的推理能力去竞争 Transformer。

核心方法

Mamba 改进结构化状态空间模型,让模型参数依赖当前输入。这个选择性机制让模型可以在每个 token 处决定传播什么、遗忘什么。由于这会破坏一些高效卷积技巧,作者设计了面向硬件的循环模式并行算法,并把它封装成一个没有注意力、甚至没有标准 MLP block 的简化架构。

关键结果

论文报告 Mamba 推理速度快,序列长度线性扩展,并且在百万长度序列上仍能随数据规模提升。作为通用 backbone,Mamba 在语言、音频和基因组等模态上都有强表现。在语言建模中,Mamba-3B 超过同尺寸 Transformer,并在若干评测中接近两倍参数 Transformer。

为什么重要

当长上下文成为核心竞争点时,Mamba 给出了一个可信的非注意力 backbone。即便 Transformer 仍占主导,Mamba 也改变了架构讨论:循环和状态空间模型不再只是旧概念,而是可以结合硬件意识重新成为现代基础模型候选。

局限与存疑

Mamba 不是所有 Transformer 工作负载的直接替代品。生态支持、最大规模下的扩展规律、训练配方和混合架构仍是开放问题。核心取舍也还在讨论:什么时候选择性记忆能超过显式 token-token 注意力,什么时候缺少直接两两比较会伤害能力。

一句话:Mamba 试图用选择性记忆替代注意力。