主题

序列建模

用于建模文本、音频、代码、基因组等长序列数据的架构。

JKU Linz 团队把 xLSTM、Mamba-2、Gated DeltaNet 放进代码、时序和合成任务里对比,把 xLSTM 的领先拆成两种能力:可外推的计数累积和有限状态跟踪。

扩散语言模型的机会与难题把扩散语言模型研究现状落到具体方法和可检查结果上,适合判断该方向的真实进展。

SEDD:用概率比率做离散扩散语言模型把离散扩散语言建模落到具体方法和可检查结果上,适合判断该方向的真实进展。

谷歌研究院提出离线睡眠阶段,把短期上下文写回权重。加上睡眠后 Qwen3-8B 在 AIME-24 拿 79.2%,ARC 小样本达 80%。

Audio Interaction Model 用「感知-决策-响应」循环,让音频大模型边听边判断要不要回、何时回并即时作答;基于 StreamAudio-2M 训练,8 个基准有竞争力。

GENEB 用统一探针协议,在 13 类共 100 个任务上评测 40 个基因组基础模型的冻结表征,发现排名跨类别剧烈翻转,堆参数只换来微弱且不稳定的提升。

HRM-Text 用约 1500 美元、仅 400 亿 token 从零训出 10 亿参数模型，MMLU 60.7%、GSM8K 84.5%、MATH 56.2%，靠层级循环架构而非堆算力。

2017 年的 Transformer 抛弃循环与卷积,只用注意力,WMT14 英德 28.4 BLEU、英法 41.8 BLEU,8 卡训练 3.5 天。如今几乎所有大模型都继承它。

Mamba 让状态空间模型参数随输入变化,按 token 选择记住或遗忘。它随长度线性扩展,推理吞吐是 Transformer 的 5 倍,3B 模型匹敌两倍参数 Transformer。