Qwen2.5 解读:阿里从 0.5B 到 72B 的开源大模型全家桶

快速答案

Qwen2.5 是阿里推出的大模型家族,同时有开源权重和云端托管两种形态,参数从 0.5B 一路覆盖到 72B,预训练用了 18 万亿 tokens——比 Qwen2 的 7 万亿翻了不止一倍。开源旗舰 Qwen2.5-72B-Instruct 在多项基准上追平甚至超过不少开源与闭源模型,并与体量约为它 5 倍的 Llama-3-405B-Instruct 打得有来有回。托管的两个 MoE 版本 Qwen2.5-Turbo 与 Qwen2.5-Plus,则在性价比上分别对标 GPT-4o-mini 和 GPT-4o。

家族里都有什么

这篇报告的看点是「全」,而不是某一个模型。Qwen2.5 一口气放出 0.5B、1.5B、3B、7B、14B、32B、72B 七档稠密模型的基座版与指令版,还附带量化版本,全部开源权重。另有两个闭源的混合专家(MoE)模型 Qwen2.5-Turbo 和 Qwen2.5-Plus,只通过阿里云百炼平台提供服务。小尺寸和旗舰一样关键:一个能真正塞进手机或边缘盒子的 0.5B,才让「家族」二字有意义,而 Qwen2.5 横跨七档稠密尺寸的铺法,比同期多数开源发布都宽。

这份报告同时还是一层地基。阿里用这批模型训出了一系列专用衍生模型——Qwen2.5-Math、Qwen2.5-Coder、QwQ 推理模型,以及多模态版本——所以与其说它是单个产品,不如说是一整条产品线的根。

它是怎么训出来的

预训练的故事就靠两个数字。数据集从 Qwen2 的 7 万亿 tokens 扩到 18 万亿高质量 tokens,过滤更狠,专家知识、数学、代码的覆盖也更广。这个规模就是常识、推理、理工科能力提升背后的主要杠杆。

后训练决定了指令模型的「脾气」。阿里先在超过 100 万条精挑细选的样本上做监督微调,再跑多阶段强化学习对齐人类偏好。报告特别点名:后训练提升最大的是长文本生成、结构化数据分析和指令遵循——正是把「能用的助手」和「只刷分的基座」区分开的那些实用能力。上下文方面,Qwen2.5-Turbo 把可用窗口拉到 100 万 tokens,远超稠密开源模型的常规长上下文区间。

关键结果

旗舰对决大它 5 倍的模型: Qwen2.5-72B-Instruct 在参数约为对方五分之一的情况下,与 Llama-3-405B-Instruct 表现相当——这是报告最硬的效率论断。
托管 MoE 的经济账: Qwen2.5-Turbo 与 Qwen2.5-Plus 分别瞄准 GPT-4o-mini 和 GPT-4o,在保住质量的同时主打成本更低。
预训练规模: 18 万亿 tokens,较 Qwen2 的 7 万亿增至 2.6 倍,是带动语言理解、推理、数学、代码全面提升的最大单项改动。
后训练体量: 超过 100 万条监督样本外加多阶段 RL,提升最显著的是长文本生成、结构化输出与指令遵循。
长上下文: Qwen2.5-Turbo 可处理高达 100 万 tokens,把百万级窗口做进了一个真正对外服务的模型里。

为什么现在重要

Qwen2.5 是让阿里 Qwen 系列从「区域备选」变成开源开发者「默认选项」的那一版。宽尺寸阶梯、可放心使用的开源旗舰、再加上打平大它 5 倍模型的成绩,凑齐了下游团队最想要的东西:挑一档适配自己硬件的尺寸,微调,上线。更大的信号在于,这一时期最强的几个专用开源模型——Coder、Math、推理——都是在 Qwen2.5 之上训出来的,它的质量因此远远溢出这一篇报告,渗透进整个开源生态。

局限与存疑

该泼的冷水,都是关于一份技术报告能说什么、不能说什么。基准上的胜利,尤其是「比肩大它 5 倍的模型」,高度依赖具体评测套件与解码设置;这又是一份第一方文档,所以在把这些数字当定论之前,独立复现很重要。最诱人的成本论断挂在 Turbo 和 Plus 上,而它们是 API 背后的闭源 MoE——真正的开源故事是 0.5B 到 72B 那条稠密线,旗舰级的效率反倒落在闭源版本里。量化版本以怎样的代价拿质量换体积,报告并未按尺寸逐一交代清楚。作为一份基座报告,它对安全性、拒答行为、对抗场景下的多语言鲁棒性也着墨甚少——这些都得你自己在部署前评估。

常见问题

Qwen2.5 有哪些尺寸?

Qwen2.5 开源了 0.5B、1.5B、3B、7B、14B、32B、72B 七档稠密模型的基座版与指令版,并提供量化版本。另有两个托管 MoE 模型 Qwen2.5-Turbo 与 Qwen2.5-Plus,仅通过阿里云提供。

Qwen2.5 是开源的吗?

0.5B 到 72B 的稠密基座版与指令版以开源权重发布,可下载本地运行;Qwen2.5-Turbo 与 Qwen2.5-Plus 是闭源的,只通过阿里云百炼平台提供。

Qwen2.5-72B 和 Llama-3-405B 比谁强?

Qwen2.5-72B-Instruct 在体量约为对方五分之一的前提下,与 Llama-3-405B-Instruct 表现相当,这是报告的核心效率结论。

从 Qwen2 到 Qwen2.5 改了什么?

最大改动是预训练规模:18 万亿 tokens 对比 Qwen2 的 7 万亿,再加上后训练阶段超过 100 万条监督样本与多阶段 RL,推理、长文本生成、结构化输出和指令遵循都随之提升。

Qwen2.5 除了聊天还能干什么?

它是阿里多个专用模型的地基,包括 Qwen2.5-Math、Qwen2.5-Coder、QwQ 推理模型和多模态版本,质量会传导到更广的一整条产品线。

一句话:一条从 0.5B 到 72B 的完整开源阶梯,用 18T tokens 训出来,72B 能跟大它 5 倍的对手掰手腕。阅读 arXiv 原文。