Mellum 2:跑在 2.5B 算力上的 12B 代码 MoE 模型
JetBrains 开源代码模型 Mellum 2:总参 12B、每 token 仅激活 2.5B 的混合专家,在软件任务上对标 4B-14B 稠密模型,算力却只够 2.5B。
快速答案
Mellum 2 是 JetBrains 推出的开源代码模型:总参 12B,但每 token 只激活 2.5B,采用 64 专家、每 token 路由 8 个专家的混合专家(MoE)架构。它在约 10.6 万亿 token 上预训练,上下文扩展到 128K。JetBrains 称其在软件任务上能与 4B-14B 区间的稠密开源模型掰手腕,而单 token 算力只相当于一个 2.5B 稠密模型。base、instruct、thinking 三套权重全部以 Apache 2.0 协议开源。
Mellum 2 为谁而造
Mellum 是 JetBrains 自研的代码模型线,Mellum 2 瞄准的是 IDE 助手的完整闭环,而不只是补全:代码生成、编辑、调试、跨仓库推理、工具调用,以及对话式编程辅助。这一定位决定了谁该关注它——它是 IntelliJ、PyCharm 背后这家公司专为开发者工具打造的模型,而非顺手会写代码的通用聊天模型。
最大的赌注在效率。能塞进工作站跑的开源代码模型大多是稠密结构,每个 token 都要为全部参数买单。Mellum 2 则存着 12B 参数的知识量,每 token 却只点亮其中 2.5B。只要质量扛得住,这就是「能以 IDE 延迟便宜地部署」与「部署不起」之间的差别。
架构如何压低算力
MoE 布局是核心戏法:64 个专家、每 token 激活 8 个,既给了模型大容量,又把实际算力压得很低。在此之上,Mellum 2 叠了几项相互叠加的效率设计:
- 分组查询注意力(GQA,4 个 KV 头) 缩小了 KV 缓存,而长上下文下真正吃显存的正是它。
- 75% 层用滑动窗口注意力,意味着大部分层只做局部注意,128K 窗口下注意力开销不会爆炸。
- 多 token 预测(MTP)头 一头两用:预训练时是辅助目标,推理时是投机解码的草稿头,无需另起一个草稿模型就能提吞吐。
- 逐层选择性 YaRN 通过在选定层上重缩放位置,把上下文扩到 128K,而非一刀切全层缩放。
这些手段单拿出来都不新——GQA、滑动窗口、MTP、YaRN 都是成熟技术。真正的贡献是整合:把它们拼成一个代码专用、运行便宜、还开放许可的 MoE。
训练配方
Mellum 2 在约 10.6 万亿 token 上预训练,随后做两阶段后训练:先监督微调,再上 RLVR(基于可验证奖励的强化学习)。RLVR 与近期推理模型同源——只奖励可被核验的结果,对代码而言就是能否通过测试、能否产出有效编辑。这也是除 base、instruct 外,单独多出一套 thinking 权重的由来。
关键结果
- 每 token 激活 2.5B 参数(总参 12B),即以 2.5B 稠密模型的单 token 算力运行。
- JetBrains 称 Mellum 2 在软件工程任务上 与 4B-14B 区间的开源模型相当,相当于以约 2-5 倍于自身激活规模的水平出拳。
- 约 10.6 万亿训练 token、128K 上下文窗口,足以把可观的仓库上下文塞进单次提示。
- 64 专家、激活 8 个,配 GQA(4 个 KV 头)与 75% 层的滑动窗口注意力。
- 发布 三套 Apache 2.0 权重:base、instruct、thinking。
为什么现在重要
值得注意的不是「又一个开源代码模型」,而是它主张:稀疏 MoE 能在代码这一具体场景上,用小稠密模型的成本拿到中等稠密模型的质量,且许可宽松。对想自托管 IDE 助手的团队来说,单 token 算力是天天要付的账,2.5B 激活部署起来便宜。Apache 2.0 也扫掉了某些其他开源代码模型在商用产品里的许可摩擦。
局限与存疑
报告用的是「与 4B-14B 基线相当」这种谨慎措辞,而非「击败」它们——没有完整的基准表格,很难判断它究竟在多大程度上追平、在哪些任务上仍落后。MoE 部署也比它的激活参数数字看上去更难:全部 12B 参数都得常驻显存,哪怕每 token 只点亮 2.5B,所以显存占用更接近 12B 稠密模型而非 2.5B。效率红利在算力和吞吐,不在显存。再者,作为单一厂商的技术报告,评测是自报数据;在 agentic 软件工程任务(代码模型越来越在此处定生死)上的独立基准,才是关键检验。引用具体数字前请以原报告为准。
常见问题
Mellum 2 是什么?谁做的?
Mellum 2 是 JetBrains(IntelliJ IDEA、PyCharm 的开发商)推出的开源代码语言模型。它是一个总参 12B、每 token 激活 2.5B 的混合专家模型,面向代码生成、编辑、调试与 IDE 辅助。
Mellum 2 有 12B 参数,为什么还省算力?
Mellum 2 采用混合专家设计:64 个专家、每 token 只激活 8 个,因此每个 token 约用 2.5B 激活参数处理。这让它在拥有 12B 知识容量的同时,只付 2.5B 稠密模型的单 token 算力。
Mellum 2 开源吗?用什么许可?
开源。JetBrains 以 Apache 2.0 协议发布 Mellum 2,base、instruct、thinking 三套权重均公开——这是一个允许商用的宽松许可。
Mellum 2 支持多长上下文?
Mellum 2 支持 128K token 上下文窗口,通过逐层选择性 YaRN 扩展,足以在单次提示中容纳可观的仓库上下文用于代码推理。
一句话:一个代码专用的 12B MoE,跑在 2.5B 稠密算力上,且 Apache 2.0 开源。阅读 arXiv 原文。