MiniMax Sparse Attention:百万上下文稀疏注意力
MSA 让每个查询组只看 2048 个被选中的 KV token,在 1M 上下文报告 28.4 倍注意力 FLOPs 降低、14.2 倍 prefill 加速。
主题
降低大模型内存、算力或延迟成本的算法与系统。
MSA 让每个查询组只看 2048 个被选中的 KV token,在 1M 上下文报告 28.4 倍注意力 FLOPs 降低、14.2 倍 prefill 加速。
专家混合 · Renmin University of China
MPI 让 MoE 路由行对齐专家权重的主奇异方向。11B MoE 平均 benchmark 准确率从 40.92 升到 42.76,训练只慢 0.2%。
DistilBERT:更小更快的 BERT把紧凑语言模型的知识蒸馏落到具体方法和可检查结果上,适合判断该方向的真实进展。
生物分子建模 · Independent Researcher
DynamicMPNN:多状态蛋白质设计把多构象蛋白质序列设计落到具体方法和可检查结果上,适合判断该方向的真实进展。
扩散语言模型 · Independent Researcher
扩散语言模型的无因子化误差解码把离散扩散语言模型的投机解码落到具体方法和可检查结果上,适合判断该方向的真实进展。
扩散模型 · The Hong Kong Polytechnic University
GGT-100K:图像修复的生成式真值把真实图像修复数据变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
MobileBERT:端侧紧凑 BERT把面向端侧的 BERT 压缩落到具体方法和可检查结果上,适合判断该方向的真实进展。
StreamMA 让智能体生成一步推理就立刻流式传给下游,而不是等整条链写完。8 个基准平均涨 7.3 个百分点(HMMT 2026 最高 +22.4),并行场景最快提速 26.9 倍。
大模型推理 · Shanghai AI Laboratory
ThoughtFold 用掩码偏好学习,把 DeepSeek-R1-Distill-Qwen-7B 的冗余推理平均压掉约 56% 的 token,准确率基本不变。
微调与适配 · The Hong Kong Polytechnic University
TA-OPD 只监督教师修正落在学生 top-K 支撑集内的约 5% token,效果常追平甚至超过全 token 在线蒸馏(Qwen3-4B 蒸 1.7B:44.89 对 42.37)。
高效 AI · Shanghai AI Laboratory
Draft-OPD 让草稿模型在自身起草的状态上训练。Qwen3 思考模型加速 4.86 到 4.89 倍,比 EAGLE-3 高 23%、DFlash 高 13%,且无损。
MobileLLM 认为十亿参数以下架构比单纯堆数据更关键:深而窄设计让 125M/350M 模型提升 2.7%/4.3%,共享再加 0.7%/0.8%。
Qwen-Image-Flash 把 Qwen-Image-2.0 蒸馏到 4 步,同时做文生图和图像编辑。阿里 Qwen 发现:训练配方——数据、教师、任务比例——和蒸馏目标函数同样关键。
VideoMLA 把多头潜在注意力搬进因果视频扩散,单 token KV 显存砍 92.7%(224 对 3,072 标量),VBench 60s 夺冠,B200 吞吐提升 1.23 倍。
检索增强生成 · Universidad de San Andres
把 LLM 成对重排看作主动学习,锦标赛选择器在 TREC DL 上拿到 68.00 NDCG@10,LLM 调用比排序式 PRP 少 3-5 倍,随机方向 oracle 把位置偏置变噪声。
AnyFlow 蒸馏出一个会随采样步数增加而持续变好的视频扩散模型,修掉了一致性蒸馏模型步数变多反而变差的毛病。在 Wan2.1 上从 1.3B 到 14B 参数、双向与因果架构均做了验证。
Causal Forcing++ 把双向视频扩散蒸馏成 1-2 步逐帧自回归生成器,跑到 14.1 FPS,首帧延迟降一半,少步训练成本砍约 4 倍。
Code2LoRA 用超网络为代码模型生成仓库专属 LoRA 适配器,推理时零额外 token,精确匹配达仓库内 66.2%、跨仓库 63.8%,Evo 版还随 diff 增量更新。
DeepSeek-V3 是 6710 亿参数混合专家模型,每 token 仅激活 370 亿,全程训练只用 278.8 万 H800 GPU 时,比肩头部闭源模型且开源权重。
高效 AI · Shanghai Jiao Tong University
Domino 让并行草稿器一次性提出整块 token,再用一个轻量头补回 token 之间的因果依赖,Transformers 下加速最高 5.49 倍,SGLang 吞吐最高 5.8 倍。
用神经索引器预测下一步要用哪些 KV 块、只留在显存里,FlashMemory-DeepSeek-V4 把物理 KV 缓存压到全量基线的 13.5%,准确率几乎不降。
RTPurbo 用两阶段各约 600 步,把训练好的全注意力大模型转成稀疏注意力,LongBench 54.24 反超 53.80,1M 上下文预填充提速 9.36 倍。
HRM-Text 用约 1500 美元、仅 400 亿 token 从零训出 10 亿参数模型,MMLU 60.7%、GSM8K 84.5%、MATH 56.2%,靠层级循环架构而非堆算力。
KVarN 用 Hadamard 旋转加双轴方差归一化,把 KV 缓存压到 2-bit 且无需标定数据,专治长推理解码中量化误差逐步放大的问题。
Mirage 把视频世界模型的 3D 记忆直接存进扩散潜空间,而非 RGB 点云,WorldScore 平均分 70.36 拿下 SOTA,端到端快 10.57 倍、显存省 55 倍。
微软 Lens 是 38 亿参数的文生图扩散模型,靠给每张图配上百词长描述,仅用 Z-Image 约 19.3% 的训练算力就追平 60 亿+ 参数对手。
LongLive-2.0 让 5B 长视频模型全程跑在 NVFP4 4 比特上,720p 达 45.7 FPS,训练快 2.1 倍、推理快 1.84 倍,VBench 仅降半分。
LocateAnything 把整个检测框一步解出,而非逐位输出坐标,混合模式达每秒 12.7 个框,约为 Rex-Omni-3B 的 2.5 倍,3B 规模下领跑 COCO 与 LVIS。
LoRA 冻结预训练权重,只在每层训练一对小的低秩矩阵,可训练参数最多减少 1 万倍、显存减少 3 倍,质量不降,且推理零额外延迟。
δ-mem 给冻结的大模型挂上一块仅 8×8 的 delta 规则在线记忆,长记忆平均分较原模型提升 1.10×、较其他记忆方法提升 1.15×,无需微调、不扩上下文。
MinT 让一个前沿基座常驻显存、只换 LoRA 适配器,把换模型这一步在 4B 稠密模型上提速 18.3 倍、30B MoE 上提速 2.85 倍,目标管理百万级适配器目录。
Mistral 7B 是 70 亿参数的开源模型,在所有评测基准上都胜过 Llama 2 13B,靠分组查询注意力和滑动窗口注意力做到低成本推理,且以 Apache 2.0 协议开源。
OCC-RAG 是 0.6B 与 1.7B 的两个推理小模型,只依据给定上下文作答、答不出就拒答,在多跳问答上追平甚至超过体量 2-6 倍的通用模型。
立场论文,把 LoRA 式适配器重新定义为持久的个人状态,而非全量微调的廉价替身,给出做大、做小、做宽三条轴线,配套名为 MinT 的服务系统。
Phi-3-mini 仅 38 亿参数,靠重度筛选加合成的「教科书级」数据训练,MMLU 69%、MT-bench 8.38,比肩 GPT-3.5,却小到能跑在手机上。
扩散模型 · University of Science and Technology of China
Stream-T1 不重训,只在推理时搜索,就把 5 秒片段的 VideoAlign 运动质量从 0.350 提到 0.629,并压住毁掉 30 秒长片的漂移。
Switch Transformer 把混合专家简化为每个词只路由到一个专家,在同等算力下让 T5 预训练最高快 7 倍,并用 bfloat16 训练把稀疏模型扩到 1.6 万亿参数。
在线策略蒸馏会把教师监督浪费在学生早期的烂 rollout 上。TRB 在热身阶段于 KL 信赖域内混入接近教师的行为策略,再把预算退火到零——两个数学推理设置上拿到最强平均成绩。
FlashAttention 是精确注意力算法,用分块和重计算压缩 GPU 内存搬运:GPT-2 提速 3 倍、BERT-large 提速 15%,显存随序列长度线性增长。
序列建模 · Carnegie Mellon University
Mamba 让状态空间模型参数随输入变化,按 token 选择记住或遗忘。它随长度线性扩展,推理吞吐是 Transformer 的 5 倍,3B 模型匹敌两倍参数 Transformer。