主题

微调与适配

低成本地把预训练模型适配到新任务,包括 LoRA 等参数高效方法。

AI 智能体 · Shanghai Jiao Tong University

LatentSkill：把智能体技能烧进 LoRA 权重，而非塞进提示词

超网络一次前向就把文本技能编译成 LoRA。ALFWorld 成功率涨 21.4 分，prefill token 省 64.1%。

强化学习 · Tianjin University

多域 RL 为何会遗忘，一次数学复习就能治好

按数学→代码→问答→写作顺序做 RL 后训练，数学从峰值 66.49 跌到 57.66，可梯度看上去却是正交的。末尾补一段短数学复习，数学回到 66.04，其余三域几乎不动。

大模型推理 · Shanghai AI Laboratory

ThoughtFold:推理链砍掉 56% token 而不掉点

ThoughtFold 用掩码偏好学习,把 DeepSeek-R1-Distill-Qwen-7B 的冗余推理平均压掉约 56% 的 token,准确率基本不变。

微调与适配 · The Hong Kong Polytechnic University

Token 可教性：只监督 5% token 蒸馏大模型

TA-OPD 只监督教师修正落在学生 top-K 支撑集内的约 5% token，效果常追平甚至超过全 token 在线蒸馏（Qwen3-4B 蒸 1.7B：44.89 对 42.37）。

大模型推理 · Samsung Research

TrOPD:面向小模型的信任域在线策略蒸馏

TrOPD 只在教师真正可信的 token 上做在线策略蒸馏,在数学、代码、STEM 上比标准 OPD 平均高出 3.06 到 3.52 分。

大模型推理 · Shanghai AI Laboratory

SU-01:30B 开源模型如何拿下金牌级奥赛推理

上海 AI 实验室的 30B-A3B 开源模型 SU-01,仅用约 33.8 万条短 SFT 轨迹加 200 步两阶段 RL,就在 IMO 2025 拿到 35 分金牌线。

大模型推理 · Xiaohongshu

反向自蒸馏 AntiSD:用点互信息加速推理 RL

AntiSD 把自蒸馏反过来,只奖励特权上下文与原模型分歧最大的 token,用 2 到 10 倍更少的步数追平 GRPO,在 4B 到 30B 的五个模型上最终高出至多 11.5 分。

代码生成 · University of Waterloo

Code2LoRA:用超网络为代码模型生成仓库专属 LoRA

Code2LoRA 用超网络为代码模型生成仓库专属 LoRA 适配器,推理时零额外 token,精确匹配达仓库内 66.2%、跨仓库 63.8%,Evo 版还随 diff 增量更新。

大模型推理 · Renmin University of China

DelTA:面向可验证奖励强化学习的判别式 Token 信用分配

DelTA 把 RLVR 更新重加权,让信用落在真正能区分对错的 token 上,使 Qwen3-8B-Base 平均提升 3.26 分、Qwen3-14B-Base 提升 2.62 分。

大模型推理 · Alibaba Qwen Team

DVAO:按方差自适应加权的多奖励强化学习

DVAO 按各奖励在组内的方差自适应加权,而非固定系数,在 Qwen3-4B-Base 上把平均准确率从 38.99% 提到 42.19%,长度合规率从 96.39% 拉到 99.91%。

文生图 · University of Science and Technology of China

Flow-OPD:用在线蒸馏化解文生图 RL 的奖励冲突

Flow-OPD 给每个奖励单独训一个专家教师,再在线蒸馏进同一个 SD3.5 学生,把 GenEval 从 0.63 拉到 0.92、OCR 从 0.59 拉到 0.94,且不损画质。

微调与适配 · HKUST

在线策略蒸馏的几何:一种独立的参数更新模式

在线策略蒸馏并非介于 SFT 与 RLVR 之间,而是自成一套几何:它改动更少权重、避开主方向,并在训练早期就锁进一个狭窄低维子空间。

高效 AI · Microsoft Research

LoRA 解读:用低秩适配高效微调大模型

LoRA 冻结预训练权重,只在每层训练一对小的低秩矩阵,可训练参数最多减少 1 万倍、显存减少 3 倍,质量不降,且推理零额外延迟。

语音识别 · Shanghai AI Laboratory

Mega-ASR：靠规模化声学仿真攻克真实嘈杂语音识别

Mega-ASR 用 240 万条仿真音频、54 种复合声学场景训练 Qwen3-ASR-1.7B，把 VOiCES R4-B-F 上的词错率从 54.01% 降到 45.69%。

微调与适配 · Mind Lab

MinT:训练与服务百万级 LoRA 大模型的基础设施

MinT 让一个前沿基座常驻显存、只换 LoRA 适配器,把换模型这一步在 4B 稠密模型上提速 18.3 倍、30B MoE 上提速 2.85 倍,目标管理百万级适配器目录。

微调与适配 · Mind Lab

PEFT 的规模化:在一个底座上跑百万个人模型

立场论文,把 LoRA 式适配器重新定义为持久的个人状态,而非全量微调的廉价替身,给出做大、做小、做宽三条轴线,配套名为 MinT 的服务系统。

AI 智能体 · Zhejiang University

自蒸馏智能体强化学习:特权教师逐 token 引导 GRPO

SDAR 在 GRPO 之上加了一路带门控的 token 级自蒸馏信号,由「看得到检索技能」的教师引导,让多轮智能体在 WebShop 上最高 +10.2、ALFWorld 上 +9.4。

AI 智能体 · University of Science and Technology of China

Skill1:一个 RL 策略统一管技能的选、用、蒸

Skill1 用一个 Qwen2.5-7B 策略,在同一任务结果奖励下统一学会检索、使用、提炼可复用技能,ALFWorld 达 97.5%,超最强纯 RL 基线 6.5 个点。

微调与适配 · T-Tech

信赖域行为混合 TRB:给在线策略蒸馏的热身修补

在线策略蒸馏会把教师监督浪费在学生早期的烂 rollout 上。TRB 在热身阶段于 KL 信赖域内混入接近教师的行为策略,再把预算退火到零——两个数学推理设置上拿到最强平均成绩。