序列建模 · 高效 AI · Transformer

亚二次架构对比:xLSTM、Mamba-2 与 Gated DeltaNet

JKU Linz 团队把 xLSTM、Mamba-2、Gated DeltaNet 放进代码、时序和合成任务里对比,把 xLSTM 的领先拆成两种能力:可外推的计数累积和有限状态跟踪。

亚二次架构对比:xLSTM、Mamba-2 与 Gated DeltaNet

快速答案

xLSTM 在代码预训练、蒸馏、时序预测和合成状态跟踪任务上拿到最强的综合成绩,论文认为这不是运气。差距来自它的门控支持、而另外两者只部分支持的两种能力:能外推到训练长度之外的计数累积,以及有限状态跟踪。在最难的合成测试上,带循环层的 xLSTM 变体在长度 2048 内的奇偶校验和对称群 S3 上都保持 1.000,Mamba-2 始终不超过 0.352,而纯矩阵状态的 xLSTM 干脆做不了状态跟踪。最后这点才是重点:没有哪个骨干能赢下全部。

三种架构放进同一套记号

论文把三种亚二次骨干都改写成同一套记号:输入门、遗忘门、矩阵状态、输出读取。正因为有这套统一框架,对比才公平,而不是比谁的功能列表更长。

  • xLSTM 把矩阵状态的线性注意力层(mLSTM)和循环 sLSTM 层混在一起。它的输入门是指数型的,在时间上有接近 softmax 的覆写能力;输入门和遗忘门相互独立,能灵活修正记忆。变体写成 xLSTM[7:1]、xLSTM[1:0] 这样的比例。
  • Mamba-2 是从状态空间模型推出的线性注意力,输入门和遗忘门绑在一起,更像 GRU。门绑在一起,就限制了它对早期内容重新加权的能力。
  • Gated DeltaNet 加了一个快权重机制和正交投影,门一触发就在某个方向上显式覆写旧状态。这种覆写对部分任务有帮助,但对计数有害。

三者都靠分块并行做到 O(T):块内并行矩阵运算,块间顺序传递状态。

关键结果

代码预训练用 400M 参数。在 20B 代码 token 时,xLSTM[7:1] 的 HumanEval pass@64 领先 1.43 分,到 100B token 时领先收窄到 0.90 分;在代码加 FineWeb-Edu 的混合语料上领先 1.81 分。在推理和常识上同一变体综合最好,但那里的差距不到 0.1 分,这部分的赢面很薄。

从 Qwen3-4B 蒸馏到代码模型时,xLSTM[1:0] 在 HumanEval、HumanEval+、MBPP、MBPP+ 上平均 0.768,Gated DeltaNet 是 0.755。拆开看更有意思:xLSTM[1:0] 在 HumanEval(0.831 对 0.802)和 HumanEval+(0.764 对 0.739)领先,Gated DeltaNet 在 MBPP+ 反超(0.802 对 0.788)。所以蒸馏的赢是真的,但分任务,不是横扫。

时序基础模型预训练在 GIFT-Eval 上评分,xLSTM[3:1] 从 1M 到 40M 参数都领先;10M 时它的 MASE 是 0.733、CRPS 是 0.508,Mamba-2 是 0.767 和 0.525。到 80M 几个模型收敛,Mamba-2 在 CRPS 上反超 0.005。这个优势是小规模效应,容量一大就被抹平。

合成任务最能看出机理。模型在长度 128 训练,在 128、512、2048 上测。计数任务(A^nB^n、A^nB^nC^n、多数判定)里,xLSTM[1:0] 外推到 2048 仍有 0.763 的多数判定准确率,Gated DeltaNet 跌到 0.268,Mamba-2 崩到 0.241。状态跟踪任务(奇偶校验、Z5 模运算、对称群 S3)里,xLSTM[1:1] 在每个长度都满分,Gated DeltaNet[-1,1] 拿部分分(2048 长度下奇偶 0.472、S3 0.667),Mamba-2 一个都解不了。

门控为何决定累积和状态跟踪

累积结果和门控的数学对得上。计数需要一个不随位置变化的累加状态。xLSTM 独立的指数门让它把一个稳定的累计值带到训练长度之外。Mamba-2 的门绑在一起(共用一个 1 减 sigmoid 项),没法同样地重新加权早期内容,计数就会漂移,到长度 2048 直接崩。Gated DeltaNet 的正交覆写对计数是反向操作,它会在某个状态方向上抹掉累积的值。

状态跟踪是另一种能力。出人意料的是,矩阵状态的 xLSTM[1:0] 计数很好,却做不了状态跟踪。要解 S3 这样的置换复合,得靠循环 sLSTM 层,纯线性注意力变体做不到。按论文的框架,Mamba-2 和 Gated DeltaNet 继承了限制 Transformer 在硬状态跟踪上的 TC0 表达力上限;[-1,1] 参数化带来的负特征值(沿用 Grazzi 等,2025)只能部分缓解 Gated DeltaNet 的这个限制。

它容易被误读的地方

“xLSTM 最强”这个标题掩盖了一点:它是一个家族,不是单个模型,而且赢的成员随任务变。xLSTM[1:0] 会计数但跟不了状态,xLSTM[1:1] 能跟状态,m:s 比例是个设计旋钮,不是白送的好处。代码和时序上的差距也很小或随规模消退(推理上不到 0.1 分,时序 80M 时还反超 0.005),所以别把合成任务上的差距直接放大成生产结论。强的是机理证据,落在那些把单一能力隔离出来的玩具任务上。

局限与存疑

最明显的缺口是规模。代码最多 400M 参数,时序最多 80M,而差距在这个量级就已经收窄甚至翻转。xLSTM 在累积和状态跟踪上的优势,到几十亿参数、再加上循环 sLSTM 层的耗时和显存代价时还成不成立,这里没测。

结论也和混合 m:s 比例的搜索绑在一起。论文按任务挑了 [7:1]、[3:1] 这样的比例,所以一部分赢面是配置选出来的,没有一个比例能通吃。继承一个固定比例的工程师,未必能复现论文里的差距。

最后,状态跟踪的结论建立在为隔离能力而设计的合成任务上。这些任务能干净地证明这种能力存在,但论文没有说明真实的代码或时序负载到底多常需要 S3 式的置换复合,而不是几个骨干都已经能处理的计数。

常见问题

xLSTM 和 Mamba-2 在计数、状态跟踪任务上的结果有什么不同?

计数需要不随位置变化的累积,xLSTM 独立的指数门支持,Mamba-2 绑定的门做不到,所以 Mamba-2 在长度 2048 的多数判定准确率崩到 0.241,而 xLSTM[1:0] 保持 0.763。状态跟踪靠循环 sLSTM 层,xLSTM[1:1] 在奇偶和 S3 上各长度都满分,Mamba-2 一个都解不了。

TC0 上限如何限制 Mamba-2 和 Gated DeltaNet 的架构表达力?

论文把 Mamba-2 和 Gated DeltaNet 归到限制 Transformer 的 TC0 表达力类里,所以它们没法原生解置换复合这类硬状态跟踪。Gated DeltaNet 的 [-1,1] 负特征值参数化(沿用 Grazzi 等,2025)只能部分放松这个限制,在长度 2048 上的奇偶校验只到 0.472,不是完整解。

xLSTM 在 HumanEval 代码预训练上领先多少?

400M 参数下,xLSTM[7:1] 的 HumanEval pass@64 在 20B 代码 token 时领先 1.43 分,100B token 时领先 0.90 分,混合语料上领先 1.81 分。token 预算越大领先越窄,推理和常识上差距更是不到 0.1 分。

工程师该不该照这篇论文换亚二次架构骨干?

生产规模上还不该。证据在合成任务和小模型(代码 400M、时序 80M)上很强、也讲清了机理,但时序差距到 80M 就反转,而且 xLSTM 的赢依赖按任务选对 m:s 比例。把它当成判断你的负载需要哪种能力的指南,然后在自己的规模上验证。

一句话:这篇论文说明 xLSTM 的领先来自同时支持累积和有限状态跟踪,但赢面分家族、且只在小规模上验证过。阅读 arXiv 原文