AI 智能体 · Shanghai Jiao Tong University
LatentSkill:把智能体技能烧进 LoRA 权重,而非塞进提示词
超网络一次前向就把文本技能编译成 LoRA。ALFWorld 成功率涨 21.4 分,prefill token 省 64.1%。
主题
低成本地把预训练模型适配到新任务,包括 LoRA 等参数高效方法。
AI 智能体 · Shanghai Jiao Tong University
超网络一次前向就把文本技能编译成 LoRA。ALFWorld 成功率涨 21.4 分,prefill token 省 64.1%。
按数学→代码→问答→写作顺序做 RL 后训练,数学从峰值 66.49 跌到 57.66,可梯度看上去却是正交的。末尾补一段短数学复习,数学回到 66.04,其余三域几乎不动。
大模型推理 · Shanghai AI Laboratory
ThoughtFold 用掩码偏好学习,把 DeepSeek-R1-Distill-Qwen-7B 的冗余推理平均压掉约 56% 的 token,准确率基本不变。
微调与适配 · The Hong Kong Polytechnic University
TA-OPD 只监督教师修正落在学生 top-K 支撑集内的约 5% token,效果常追平甚至超过全 token 在线蒸馏(Qwen3-4B 蒸 1.7B:44.89 对 42.37)。
TrOPD 只在教师真正可信的 token 上做在线策略蒸馏,在数学、代码、STEM 上比标准 OPD 平均高出 3.06 到 3.52 分。
大模型推理 · Shanghai AI Laboratory
上海 AI 实验室的 30B-A3B 开源模型 SU-01,仅用约 33.8 万条短 SFT 轨迹加 200 步两阶段 RL,就在 IMO 2025 拿到 35 分金牌线。
AntiSD 把自蒸馏反过来——只奖励特权上下文与原模型分歧最大的 token——用 2 到 10 倍更少的步数追平 GRPO,在 4B 到 30B 的五个模型上最终高出至多 11.5 分。
Code2LoRA 用超网络为代码模型生成仓库专属 LoRA 适配器,推理时零额外 token,精确匹配达仓库内 66.2%、跨仓库 63.8%,Evo 版还随 diff 增量更新。
大模型推理 · Renmin University of China
DelTA 把 RLVR 更新重加权,让信用落在真正能区分对错的 token 上,使 Qwen3-8B-Base 平均提升 3.26 分、Qwen3-14B-Base 提升 2.62 分。
DVAO 按各奖励在组内的方差自适应加权,而非固定系数,在 Qwen3-4B-Base 上把平均准确率从 38.99% 提到 42.19%,长度合规率从 96.39% 拉到 99.91%。
文生图 · University of Science and Technology of China
Flow-OPD 给每个奖励单独训一个专家教师,再在线蒸馏进同一个 SD3.5 学生,把 GenEval 从 0.63 拉到 0.92、OCR 从 0.59 拉到 0.94,且不损画质。
在线策略蒸馏并非介于 SFT 与 RLVR 之间,而是自成一套几何:它改动更少权重、避开主方向,并在训练早期就锁进一个狭窄低维子空间。
LoRA 冻结预训练权重,只在每层训练一对小的低秩矩阵,可训练参数最多减少 1 万倍、显存减少 3 倍,质量不降,且推理零额外延迟。
Mega-ASR 用 240 万条仿真音频、54 种复合声学场景训练 Qwen3-ASR-1.7B,把 VOiCES R4-B-F 上的词错率从 54.01% 降到 45.69%。
MinT 让一个前沿基座常驻显存、只换 LoRA 适配器,把换模型这一步在 4B 稠密模型上提速 18.3 倍、30B MoE 上提速 2.85 倍,目标管理百万级适配器目录。
立场论文,把 LoRA 式适配器重新定义为持久的个人状态,而非全量微调的廉价替身,给出做大、做小、做宽三条轴线,配套名为 MinT 的服务系统。
SDAR 在 GRPO 之上加了一路带门控的 token 级自蒸馏信号,由「看得到检索技能」的教师引导,让多轮智能体在 WebShop 上最高 +10.2、ALFWorld 上 +9.4。
AI 智能体 · University of Science and Technology of China
Skill1 用一个 Qwen2.5-7B 策略,在同一任务结果奖励下统一学会检索、使用、提炼可复用技能,ALFWorld 达 97.5%,超最强纯 RL 基线 6.5 个点。
在线策略蒸馏会把教师监督浪费在学生早期的烂 rollout 上。TRB 在热身阶段于 KL 信赖域内混入接近教师的行为策略,再把预算退火到零——两个数学推理设置上拿到最强平均成绩。