Phi-3-mini:能塞进手机、对标 GPT-3.5 的 3.8B 模型

快速答案

Phi-3-mini 是微软推出的 38 亿参数语言模型,MMLU 拿到 69%、MT-bench 8.38——与体量大它数倍的 Mixtral 8x7B、GPT-3.5 持平,却能量化到约 1.8GB,在 iPhone 14 上完全离线、以每秒约 12 个 token 的速度运行。这篇论文真正的卖点不是架构(就是一个朴素的 Llama-2 式 Transformer),而是数据:phi-3 用 3.3 万亿 token 训练,全部是重度筛选的网页文本加上合成的「教科书级」数据,主张训练用什么数据比把模型做多大更关键。

「教科书级数据」这一核心主张

整个 phi 系列押的注是:标准的缩放定律并不是关于模型规模的定律,而是「在原始、未经区分的互联网文本上训练」这一前提造成的产物。Phi-3 沿用 phi-2 的数据配方并放大规模,对公开网页数据按教育价值和推理密度做严格过滤,再掺入由大模型生成、专门用来教某项技能(逻辑、数学、常识推理、冷门知识)的合成数据。团队把这称为给定模型规模下的「数据最优区间」,以区别于 Chinchilla 式缩放追求的「算力最优区间」:他们问的不是 3.8B 模型能吞下多少 token,而是哪 3.3 万亿 token 值得占用它有限的容量。

这是全文的承重梁,也是最难被验证的部分。具体的过滤规则、合成数据的生成提示、各部分的混合比例都没有公开——这可以理解,因为它们就是护城河。于是这套主张靠基准成绩支撑,而非靠一份可复现的配方。

关键结果

MMLU: phi-3-mini 达 69%,而 GPT-3.5 为 68%、Mixtral 8x7B(470 亿参数的稀疏模型)为 70.5%——以约十分之一的有效规模基本追平两者。
MT-bench: 8.38,同样在 GPT-3.5 的水平,说明对齐与对话调优站得住,而不只是死记知识。
端侧运行: 4 比特量化后,phi-3-mini 占用约 1.8GB,在搭载 A16 芯片的 iPhone 14 上完全离线、每秒生成超过 12 个 token——这就是字面意义上的「在你手机上」。
同系列缩放: phi-3-small(7B)与 phi-3-medium(14B)用 4.8 万亿 token 训练,MMLU 分别为 75%、78%,MT-bench 为 8.7、8.9——数据配方随规模增大仍持续奏效。

一个 3.8B 模型为何在当下重要

真正有意思的不是 phi-3 打败了谁——它打不过 GPT-4——而是它把「可用」的门槛拉到了地板。一个能塞进手机内存、不联网也能跑的模型,改变了部署的经济账:没有按 token 计费的 API 成本,没有到数据中心的延迟,数据也不出本机。对一大类任务——摘要、分类、结构化抽取、端侧助手——一个 GPT-3.5 水准的 3.8B 模型就够用了,而省钱最多的恰恰是这块。

局限与存疑

Phi-3-mini 的短板正是它数据策略的反面:容量。论文坦承 38 亿参数根本装不下宽广的事实性知识,所以它在 TriviaQA 这类拼知识量的基准上偏弱,在需要广博世界知识的任务上吃力——作者建议给它配一个搜索引擎,而不要指望它把事实都记住。它也以英文为主,多语言覆盖很薄(后续 phi-3.5 系列才补上)。而那些亮眼数字也值得一份合理的怀疑:对任何按「质量」精挑数据的模型而言,基准污染都是悬着的风险;由于数据管线不公开,微软之外没人能审计是否混入了与基准相邻的内容。高分是真的,但「比肩 GPT-3.5」应当读成「在这些基准上」,而非对能力的笼统断言。

常见问题

Phi-3-mini 怎么在手机上跑起来?

Phi-3-mini 只有 38 亿参数,量化到 4 比特后约占 1.8GB 内存。论文报告它在 iPhone 14(A16 芯片)上原生运行,完全离线、每秒超过 12 个 token,无需连接任何服务器。

Phi-3-mini 真的和 GPT-3.5 一样强吗?

在学术基准上很接近:MMLU 69%、MT-bench 8.38,与 GPT-3.5、Mixtral 8x7B 相当。但因为体量小,它的事实性知识远少于这些模型,所以「一样强」成立于推理和对话质量,而非广博记忆。

Phi-3 里的「教科书级数据」是什么意思?

就是这样一个主张:对网页文本按教育和推理价值做激进过滤,再补上专门教某项技能的合成数据,能让小模型的表现远超其参数量。Phi-3 把这称为在「数据最优区间」训练,而非标准缩放定律的算力最优区间。

Phi-3-small 和 phi-3-medium 是什么?

它们是同系列的 7B 与 14B 成员,用 4.8 万亿 token 训练,MMLU 分别达 75%、78%,MT-bench 为 8.7、8.9。它们表明同一套精选数据配方在 3.8B 之外仍能继续放大。

一句话:把这 3.3 万亿 token 挑好,一个 3.8B 模型就能装进口袋、答得像 GPT-3.5——只是别指望它什么都记得住。阅读 arXiv 原文。