主题

高效 AI

降低大模型内存、算力或延迟成本的算法与系统。

文生图 · Huazhong University of Science and Technology

Moebius:0.22B 图像修复模型打平 11.9B FLUX

Moebius 是 0.22B 扩散修复模型,追平 11.9B 的 FLUX.1-Fill-Dev。CelebA-HQ FID 5.39 对 10.13,参数不到 2%,推理约省 15 倍。

强化学习 · Alibaba Qwen Team

打破熵界:用拒绝采样让 MTP 在 RL 训练里更快

Bebop 证明 MTP 接受率在 RL 里被熵上升压住。全变差损失加拒绝采样把接受率稳在约 95%,熵斜率从 -1.68 压到 -0.06,异步 RL 最快提速 1.8 倍,精度不变。

世界模型 · SenseTime

Kairos:面向具身智能的 4B 原生世界模型栈

Kairos 用 40 亿参数、线性时间的混合线性时序注意力,在 PAI-Bench 上拿到 80.84,单张 RTX5090 跑完一次 480P rollout 只要 11.4 秒。

高效 AI · Tsinghua University

用 Test-Time Training 线性化 ViT(SD3.5-T5)

SD3.5-T5 把 Softmax 换成继承预训练 Q/K/V/O 权重的 TTT 层,3000 步微调后 GenEval 0.69,1K 提速 1.32 倍、2K 提速 1.47 倍。

视频生成 · Peking University

LoomVideo:5B 统一视频模型,编辑不靠拼接

LoomVideo 用一个 5B 模型同时做文生视频、指令编辑和多图生视频,VBench 平均 63.15 追平 13B 的 UniVideo(63.01),编辑速度快 5.41 倍。

长上下文 · University of Maryland

端到端上下文压缩:LCLM 大规模训练解读

LCLM 把 0.6B 编码器和 4B 解码器联合训练,把长上下文压成软 token,支持 1:4、1:8、1:16,显著降低预填充显存和首 token 延迟,精度接近未压缩基线。

序列建模 · JKU Linz

亚二次架构对比:xLSTM、Mamba-2 与 Gated DeltaNet

JKU Linz 团队把 xLSTM、Mamba-2、Gated DeltaNet 放进代码、时序和合成任务里对比,把 xLSTM 的领先拆成两种能力:可外推的计数累积和有限状态跟踪。

长上下文 · MiniMax AI

MiniMax Sparse Attention:百万上下文稀疏注意力

MSA 让每个查询组只看 2048 个被选中的 KV token,在 1M 上下文报告 28.4 倍注意力 FLOPs 降低、14.2 倍 prefill 加速。

专家混合 · Renmin University of China

Manifold Power Iteration:让 MoE 路由器更懂专家

MPI 让 MoE 路由行对齐专家权重的主奇异方向。11B MoE 平均 benchmark 准确率从 40.92 升到 42.76,训练只慢 0.2%。

小语言模型 · Hugging Face

DistilBERT:更小更快的 BERT

DistilBERT:更小更快的 BERT把紧凑语言模型的知识蒸馏落到具体方法和可检查结果上,适合判断该方向的真实进展。

生物分子建模 · Independent Researcher

DynamicMPNN:多状态蛋白质设计

DynamicMPNN:多状态蛋白质设计把多构象蛋白质序列设计落到具体方法和可检查结果上,适合判断该方向的真实进展。

扩散语言模型 · Independent Researcher

扩散语言模型的无因子化误差解码论文详细解读

扩散语言模型的无因子化误差解码把离散扩散语言模型的投机解码落到具体方法和可检查结果上,适合判断该方向的真实进展。

扩散模型 · The Hong Kong Polytechnic University

GGT-100K:图像修复的生成式真值

GGT-100K:图像修复的生成式真值把真实图像修复数据变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

小语言模型 · Google Research

MobileBERT:端侧紧凑 BERT

MobileBERT:端侧紧凑 BERT把面向端侧的 BERT 压缩落到具体方法和可检查结果上,适合判断该方向的真实进展。

AI 智能体 · HKUST

StreamMA：多智能体推理里，边写边传比等完再传更聪明

StreamMA 让智能体生成一步推理就立刻流式传给下游，而不是等整条链写完。8 个基准平均涨 7.3 个百分点（HMMT 2026 最高 +22.4），并行场景最快提速 26.9 倍。

大模型推理 · Shanghai AI Laboratory

ThoughtFold:推理链砍掉 56% token 而不掉点

ThoughtFold 用掩码偏好学习,把 DeepSeek-R1-Distill-Qwen-7B 的冗余推理平均压掉约 56% 的 token,准确率基本不变。

微调与适配 · The Hong Kong Polytechnic University

Token 可教性：只监督 5% token 蒸馏大模型

TA-OPD 只监督教师修正落在学生 top-K 支撑集内的约 5% token，效果常追平甚至超过全 token 在线蒸馏（Qwen3-4B 蒸 1.7B：44.89 对 42.37）。

高效 AI · Shanghai AI Laboratory

Draft-OPD：在线策略蒸馏把投机解码推过 5 倍

Draft-OPD 让草稿模型在自身起草的状态上训练。Qwen3 思考模型加速 4.86 到 4.89 倍，比 EAGLE-3 高 23%、DFlash 高 13%，且无损。

小语言模型 · Meta AI

MobileLLM:面向端侧的小语言模型设计

MobileLLM 认为十亿参数以下架构比单纯堆数据更关键:深而窄设计让 125M/350M 模型提升 2.7%/4.3%,共享再加 0.7%/0.8%。

文生图 · Alibaba Qwen Team

Qwen-Image-Flash:蒸馏不只看目标函数

Qwen-Image-Flash 把 Qwen-Image-2.0 蒸馏到 4 步,同时做文生图和图像编辑。阿里 Qwen 发现:训练配方——数据、教师、任务比例——和蒸馏目标函数同样关键。

视频生成 · Virginia Tech

VideoMLA:低秩潜在 KV 缓存做分钟级视频扩散

VideoMLA 把多头潜在注意力搬进因果视频扩散,单 token KV 显存砍 92.7%(224 对 3,072 标量),VBench 60s 夺冠,B200 吞吐提升 1.23 倍。

检索增强生成 · Universidad de San Andres

把成对重排当主动学习:更省调用的 PRP 重排器

把 LLM 成对重排看作主动学习,锦标赛选择器在 TREC DL 上拿到 68.00 NDCG@10,LLM 调用比排序式 PRP 少 3-5 倍,随机方向 oracle 把位置偏置变噪声。

扩散模型 · NVIDIA

AnyFlow:用流映射蒸馏的任意步数视频扩散模型

AnyFlow 蒸馏出一个会随采样步数增加而持续变好的视频扩散模型,修掉了一致性蒸馏模型步数变多反而变差的毛病。在 Wan2.1 上从 1.3B 到 14B 参数、双向与因果架构均做了验证。

扩散模型 · Tsinghua University

Causal Forcing++:少步自回归扩散蒸馏做实时交互视频

Causal Forcing++ 把双向视频扩散蒸馏成 1-2 步逐帧自回归生成器,跑到 14.1 FPS,首帧延迟降一半,少步训练成本砍约 4 倍。

代码生成 · University of Waterloo

Code2LoRA:用超网络为代码模型生成仓库专属 LoRA

Code2LoRA 用超网络为代码模型生成仓库专属 LoRA 适配器,推理时零额外 token,精确匹配达仓库内 66.2%、跨仓库 63.8%,Evo 版还随 diff 增量更新。

开放模型 · DeepSeek

DeepSeek-V3 解读:671B MoE 只花 278.8 万 GPU 时

DeepSeek-V3 是 6710 亿参数混合专家模型,每 token 仅激活 370 亿,全程训练只用 278.8 万 H800 GPU 时,比肩头部闭源模型且开源权重。

高效 AI · Shanghai Jiao Tong University

Domino:把投机解码的草稿与因果修正拆开

Domino 让并行草稿器一次性提出整块 token,再用一个轻量头补回 token 之间的因果依赖,Transformers 下加速最高 5.49 倍,SGLang 吞吐最高 5.8 倍。

长上下文 · Tencent

FlashMemory-DeepSeek-V4:KV 缓存压到 13.5%

用神经索引器预测下一步要用哪些 KV 块、只留在显存里,FlashMemory-DeepSeek-V4 把物理 KV 缓存压到全量基线的 13.5%,准确率几乎不降。

高效 AI · Alibaba Qwen Team

全注意力反击:RTPurbo 几百步把大模型转成稀疏注意力

RTPurbo 用两阶段各约 600 步,把训练好的全注意力大模型转成稀疏注意力,LongBench 54.24 反超 53.80,1M 上下文预填充提速 9.36 倍。

高效 AI · Sapient Intelligence

HRM-Text：1500 美元从零训练 10 亿参数模型

HRM-Text 用约 1500 美元、仅 400 亿 token 从零训出 10 亿参数模型，MMLU 60.7%、GSM8K 84.5%、MATH 56.2%，靠层级循环架构而非堆算力。

高效 AI · Huawei

KVarN:免标定的 2-bit KV 缓存量化

KVarN 用 Hadamard 旋转加双轴方差归一化,把 KV 缓存压到 2-bit 且无需标定数据,专治长推理解码中量化误差逐步放大的问题。

世界模型 · Microsoft Research

Mirage:潜空间记忆让视频世界模型快 10 倍

Mirage 把视频世界模型的 3D 记忆直接存进扩散潜空间,而非 RGB 点云,WorldScore 平均分 70.36 拿下 SOTA,端到端快 10.57 倍、显存省 55 倍。

文生图 · Microsoft Research

Lens:用约 19% 算力训出的 38 亿参数文生图模型

微软 Lens 是 38 亿参数的文生图扩散模型,靠给每张图配上百词长描述,仅用 Z-Image 约 19.3% 的训练算力就追平 60 亿+ 参数对手。

扩散模型 · NVIDIA

LongLive-2.0:用 NVFP4 4 比特训练与推理长视频

LongLive-2.0 让 5B 长视频模型全程跑在 NVFP4 4 比特上,720p 达 45.7 FPS,训练快 2.1 倍、推理快 1.84 倍,VBench 仅降半分。

多模态模型 · NVIDIA

LocateAnything:并行框解码让视觉定位更快

LocateAnything 把整个检测框一步解出,而非逐位输出坐标,混合模式达每秒 12.7 个框,约为 Rex-Omni-3B 的 2.5 倍,3B 规模下领跑 COCO 与 LVIS。

高效 AI · Microsoft Research

LoRA 解读:用低秩适配高效微调大模型

LoRA 冻结预训练权重,只在每层训练一对小的低秩矩阵,可训练参数最多减少 1 万倍、显存减少 3 倍,质量不降,且推理零额外延迟。

长上下文 · Shanghai AI Laboratory

δ-mem:给冻结大模型加一块 8×8 在线记忆

δ-mem 给冻结的大模型挂上一块仅 8×8 的 delta 规则在线记忆,长记忆平均分较原模型提升 1.10×、较其他记忆方法提升 1.15×,无需微调、不扩上下文。

微调与适配 · Mind Lab

MinT:训练与服务百万级 LoRA 大模型的基础设施

MinT 让一个前沿基座常驻显存、只换 LoRA 适配器,把换模型这一步在 4B 稠密模型上提速 18.3 倍、30B MoE 上提速 2.85 倍,目标管理百万级适配器目录。

开放模型 · Mistral AI

Mistral 7B:7B 开源模型如何打赢 Llama 2 13B

Mistral 7B 是 70 亿参数的开源模型,在所有评测基准上都胜过 Llama 2 13B,靠分组查询注意力和滑动窗口注意力做到低成本推理,且以 Apache 2.0 协议开源。

检索增强生成 · AIRI

OCC-RAG:只为忠实读上下文而生的小模型

OCC-RAG 是 0.6B 与 1.7B 的两个推理小模型,只依据给定上下文作答、答不出就拒答,在多跳问答上追平甚至超过体量 2-6 倍的通用模型。

微调与适配 · Mind Lab

PEFT 的规模化:在一个底座上跑百万个人模型

立场论文,把 LoRA 式适配器重新定义为持久的个人状态,而非全量微调的廉价替身,给出做大、做小、做宽三条轴线,配套名为 MinT 的服务系统。

高效 AI · Microsoft Research

Phi-3-mini:能塞进手机、对标 GPT-3.5 的 3.8B 模型

Phi-3-mini 仅 38 亿参数,靠重度筛选加合成的「教科书级」数据训练,MMLU 69%、MT-bench 8.38,比肩 GPT-3.5,却小到能跑在手机上。

扩散模型 · University of Science and Technology of China

Stream-T1:用测试时扩展提升流式视频生成

Stream-T1 不重训,只在推理时搜索,就把 5 秒片段的 VideoAlign 运动质量从 0.350 提到 0.629,并压住毁掉 30 秒长片的漂移。

专家混合 · Google Research

Switch Transformer:每个词只走一个专家,参数冲上万亿

Switch Transformer 把混合专家简化为每个词只路由到一个专家,在同等算力下让 T5 预训练最高快 7 倍,并用 bfloat16 训练把稀疏模型扩到 1.6 万亿参数。

微调与适配 · T-Tech

信赖域行为混合 TRB:给在线策略蒸馏的热身修补

在线策略蒸馏会把教师监督浪费在学生早期的烂 rollout 上。TRB 在热身阶段于 KL 信赖域内混入接近教师的行为策略,再把预算退火到零——两个数学推理设置上拿到最强平均成绩。

高效 AI · Stanford University

FlashAttention 详解:IO 感知精确注意力,提速 2-4 倍

FlashAttention 是精确注意力算法,用分块和重计算压缩 GPU 内存搬运:GPT-2 提速 3 倍、BERT-large 提速 15%,显存随序列长度线性增长。

序列建模 · Carnegie Mellon University

Mamba:选择性状态空间的线性时间序列建模

Mamba 让状态空间模型参数随输入变化,按 token 选择记住或遗忘。它随长度线性扩展,推理吞吐是 Transformer 的 5 倍,3B 模型匹敌两倍参数 Transformer。