序列建模 · Carnegie Mellon University
Mamba:选择性状态空间的线性时间序列建模
Mamba 让状态空间模型参数随输入变化,按 token 选择记住或遗忘。它随长度线性扩展,推理吞吐是 Transformer 的 5 倍,3B 模型匹敌两倍参数 Transformer。
机构
在理论计算机科学、机器学习与系统研究上实力突出的研究型大学。
序列建模 · Carnegie Mellon University
Mamba 让状态空间模型参数随输入变化,按 token 选择记住或遗忘。它随长度线性扩展,推理吞吐是 Transformer 的 5 倍,3B 模型匹敌两倍参数 Transformer。