机构

Alibaba Qwen Team

阿里巴巴通义千问团队,发布开放的 Qwen 系列语言与多模态模型。

强化学习 · Alibaba Qwen Team

打破熵界:用拒绝采样让 MTP 在 RL 训练里更快

Bebop 证明 MTP 接受率在 RL 里被熵上升压住。全变差损失加拒绝采样把接受率稳在约 95%,熵斜率从 -1.68 压到 -0.06,异步 RL 最快提速 1.8 倍,精度不变。

视频生成 · Peking University

LoomVideo:5B 统一视频模型,编辑不靠拼接

LoomVideo 用一个 5B 模型同时做文生视频、指令编辑和多图生视频,VBench 平均 63.15 追平 13B 的 UniVideo(63.01),编辑速度快 5.41 倍。

强化学习 · Alibaba Qwen Team

APPO:智能体过程化策略优化详解

APPO 把 RL 分叉点放在高不确定且高影响的 token 上,而非工具调用边界,在 13 个基准上让 Qwen2.5-7B 比 ARPO 高 3.9 分。

强化学习 · Alibaba Qwen Team

Z-Reward:把推理内化进打分分布的图像奖励模型

Z-Reward 让图像奖励模型预测评分的整条分布而非标量。9B 学生只输出一个 token 就拿到 88.6% 准确率,下游 T2I 相比 SFT 净增 41.3% GSB。

AI 智能体 · University of Science and Technology of China

Role-Agent:一个 LLM 同时当智能体和环境

Role-Agent 让单个 LLM 既当智能体又当环境,自产过程奖励和课程。Qwen2.5-1.5B 上 ALFWorld 比 GiGPO 高 4.2%,WebShop 高 6.9%。

世界模型 · Alibaba Qwen Team

ABot-Earth 0.5:从卫星图生成3D城市

ABot-Earth 0.5 用卫星图生成 3D Gaussian Splatting 城市场景,报告每平方公里 10 分钟内生成,FID 为 16.1。

AI 智能体 · HKUST

StreamMA：多智能体推理里，边写边传比等完再传更聪明

StreamMA 让智能体生成一步推理就立刻流式传给下游，而不是等整条链写完。8 个基准平均涨 7.3 个百分点（HMMT 2026 最高 +22.4），并行场景最快提速 26.9 倍。

文生图 · Alibaba Qwen Team

Qwen-Image-Flash:蒸馏不只看目标函数

Qwen-Image-Flash 把 Qwen-Image-2.0 蒸馏到 4 步,同时做文生图和图像编辑。阿里 Qwen 发现:训练配方——数据、教师、任务比例——和蒸馏目标函数同样关键。

大模型推理 · Alibaba Qwen Team

DVAO:按方差自适应加权的多奖励强化学习

DVAO 按各奖励在组内的方差自适应加权,而非固定系数,在 Qwen3-4B-Base 上把平均准确率从 38.99% 提到 42.19%,长度合规率从 96.39% 拉到 99.91%。

扩散模型 · Alibaba Qwen Team

MIGA:免训练无限帧生成,做出一致的长视频

MIGA 无需训练、显存恒定,把短片扩散模型变成千帧级生成器,VBench 上 VideoCrafter2 拿 97.82 总分,比 FIFO-Diffusion 高约 2.8 分。

高效 AI · Alibaba Qwen Team

全注意力反击:RTPurbo 几百步把大模型转成稀疏注意力

RTPurbo 用两阶段各约 600 步,把训练好的全注意力大模型转成稀疏注意力,LongBench 54.24 反超 53.80,1M 上下文预填充提速 9.36 倍。

文生图 · Alibaba Qwen Team

Qwen-Image-2.0:生成与编辑统一的图像大模型

阿里 Qwen-Image-2.0 把文生图与编辑统一进一个多模态扩散 Transformer,支持 1K token 指令排版海报,原生 2K 写实,并用 16 倍压缩 VAE 提速。

视觉-语言-动作 · Alibaba Qwen Team

Qwen-VLA:用一个模型统一操作、导航与轨迹预测

Qwen-VLA 给 Qwen 视觉-语言栈加上 DiT 动作解码器和「具身感知」提示,用单一模型同时做操作、导航与轨迹预测:LIBERO 97.9%、R2R OSR 69.0%。

开放模型 · Alibaba Qwen Team

Qwen2.5 解读:阿里从 0.5B 到 72B 的开源大模型全家桶

Qwen2.5 是阿里开源大模型家族,覆盖 0.5B 到 72B,预训练 18T tokens,开源旗舰 72B-Instruct 比肩约大它 5 倍的 Llama-3-405B。

扩散模型 · Alibaba Qwen Team

重新审视扩散 Transformer 的跨层信息路由

DAR 用随时间步自适应的子层输出聚合替换扩散 Transformer 的残差相加:SiT-XL/2 的 ImageNet FID 从 9.67 降到 7.56,迭代量仅基线 1/8.75。

语言模型 · Alibaba Qwen Team

TransitLM:无地图公交路线生成的大规模数据集与基准

TransitLM 收录四座中国城市 1300 万条规划记录,让语言模型脱离地图引擎直接规划公交路线,4B 模型在最优路线上达 97.0% 连通性、71.0% 完全匹配。