开放模型 · 语言模型

Gemma 解读:谷歌用 Gemini 技术造的开源权重模型

Gemma 是谷歌 DeepMind 从 Gemini 研究中提炼出的 2B 与 7B 开源权重模型,在 18 项文本任务中 11 项胜过同级开源模型,同时放出预训练与指令微调两套权重。

Gemma 解读:谷歌用 Gemini 技术造的开源权重模型

快速答案

Gemma 是谷歌 DeepMind 推出的一系列开源权重语言模型,提供 20 亿(2B)和 70 亿(7B)两种参数规模,底层用的是支撑闭源 Gemini 的同一套研究与技术。核心数字:在团队评测的 18 项文本基准里,Gemma 有 11 项胜过同级别的开源模型;预训练和指令微调两套权重都可下载——这是谷歌第一次把它的前沿技术栈认真地做成开源发布。

Gemma 到底是什么

Gemma 不是 Gemini。Gemini 是谷歌只走 API 的闭源旗舰;Gemma 是另起一条线的、更小的开源权重模型,它复用了 Gemini 的架构选择、数据配方和训练设施,但定位是让你在自己的硬件上跑。这篇论文的重点与其说是新方法,不如说是一个明确的决策:把投入前沿系统的工程,提炼成一份紧凑、可用的开源发布,连原始预训练权重和对话微调权重一起放出。

两个尺寸对应两个不同的世界。7B 瞄准单张 GPU 或 TPU;2B 瞄准 CPU 和端侧部署——而大多数开源权重模型在端侧根本跑不动。这个切分才是论文里真正的产品决策。

它是怎么造出来的

两个尺寸都是纯解码器 Transformer,在最多 6 万亿 token 上训练,语料以英文为主,涵盖网页文档、数学和代码。架构沿用了如今的标准件——2B 用多查询注意力,7B 用多头注意力,加上旋转位置编码、GeGLU 激活和 RMSNorm——并没有引入什么新结构。指令微调版先用合成与人工的「提示—回复」对做监督微调,再叠加人类反馈强化学习(RLHF)来对齐行为。

最值得一提的工程选择是分词器:一个 25.6 万词条的 SentencePiece 词表,远大于 Llama 一类模型常见的 3.2 万。词表越大,单个 token 携带的信息越多,对非英文和代码更友好,但也撑大了嵌入表——这在 2B 规模上是实打实的开销,团队为了更广的覆盖接受了它。

关键结果

  • 多数任务赢过同级开源模型: 在 18 项文本基准里,Gemma 有 11 项胜过同尺寸开源模型,这是论文的核心论断。
  • 数学与代码: 7B 在 GSM8K 上达 46.4%、MATH 上 32.3%、HumanEval 上 pass@1 约 32%——对发布时的 7B 开源模型而言很强。
  • 推理与知识: 7B 在 MMLU 上 64.3%、HellaSwag 上 81.2%,与更大的同期模型掰手腕。
  • 小模型才是惊喜: 2B 被定位成能在笔记本 CPU 甚至手机上跑,却仍能拿下过去要靠大得多的权重才够格的基准。
  • 安全是给数据、不是糊弄: 团队公开了毒性、偏见、记忆等多维度评测,还配了一套负责任生成式 AI 工具包,而不只是把权重一扔了事。

为什么这次发布重要

2024 年初,靠谱的开源权重选择基本被 Meta 的 Llama 系列和 Mistral 占着。Gemma 之所以重要,是因为这是谷歌第一次把自家前沿研究押在开源发布上——一个信号:开源权重这一档已经对最大的实验室具备战略意义,不再只是社区行为。尤其是指令微调的 7B,给了开发者一个许可宽松、单卡可跑、背后是谷歌训练的模型;而 2B 真正打开了端侧用例。它那套负责任发布框架——分阶段安全评测、使用工具包、明示局限——也立了个标杆,后来的开源发布都拿它来比。

局限与存疑

Gemma 的开放是有限度的:权重以一份带使用限制的自定义许可放出,训练数据只描述、不公开,所以这里的「开源」指的是开放权重,不是开放数据,更不是完全开源。模型严重偏英文,尽管词表很大,多语种表现仍然落后。11/18 的胜率是真的,但有选择性——剩下 7 项它并不领先,而且对比集合是团队自选的,所以把它理解成「在同尺寸里有竞争力」,而非「样样最强」。论文本身也几乎没有真正全新的科学;它的贡献在工程和发布策略上,这恰恰是有人低估、有人又把基准表高估的原因。和所有基座模型发布一样,安全评测只框住了实验室测过的范围,框不住后来者拿开放权重微调出什么。

常见问题

Gemma 和 Gemini 有什么区别?

Gemini 是谷歌只走 API 的闭源旗舰;Gemma 是另一条开源权重线(2B 与 7B),用同一套研究与技术造,但小到能在你自己的硬件上跑,且预训练与指令微调权重都可下载。

Gemma 是完全开源吗?

不是。Gemma 以带使用条款的自定义许可放出开放权重,但训练数据和完整训练代码并未公开,所以它是「开放权重」,而非「完全开源」。

Gemma 和其他开源模型比怎么样?

在 18 项文本基准里 Gemma 有 11 项胜过同尺寸开源模型,7B 在 MMLU 上达 64.3%、GSM8K 上 46.4%——在同档里有竞争力,但并非每项都领先。

我能在自己的机器上跑 Gemma 吗?

能。7B 是为单张 GPU 或 TPU 设计的,2B 则瞄准 CPU 和端侧使用,这正是设两个尺寸的主要原因。

一句话:Gemma 把前沿闭源模型背后的工程,做成了紧凑的开放权重——小,却切割精准。阅读 arXiv 原文