思维链提示:把推理步骤写出来,如何激活大模型推理

快速答案

思维链提示其实只是把提示词改了一行:示例不再是「问题—最终答案」,而是「问题—逐步推理—最终答案」。就靠这点改动,一个 540B 参数的模型只用 8 个思维链示例,在小学数学基准 GSM8K 上达到 57%,是当时的最优成绩,还高过「微调版 GPT-3 + 单独训练的答案验证器」。没有任何梯度更新,也没有额外训练数据,提升完全来自少样本示例的写法。

一个思维链提示长什么样

标准少样本提示给模型的示例是 Q: …… A: <最终答案>,等于逼模型直接跳到答案。思维链提示把示例改成 Q: …… A: <先写一段推理,再给最终答案>,把人在草稿纸上会写的中间步骤摊开来。

整个方法就这么多。作者手写大约 8 个这样的示例,拼在真正的问题前面,让模型模仿这个格式:它先生成自己的推理轨迹,再说出答案。全程不微调、不改架构、不用验证器。模型写出来的推理未必是它内部「真实」的计算过程,但把步骤写出来,确实改变了它的输出。

为什么只在大模型上有效

最重要、也最常被忽略的发现是:思维链是一种涌现能力,而非通用技巧。在大约 100B 参数以下的模型上,加推理步骤不但没用,有时还更糟。小模型会写出看着流畅、逻辑却断裂的推理链,结果还不如直接瞎猜。这种收益要等模型越过 100B 量级才骤然出现,并随规模继续放大。

这正是多数解读弄错的地方。思维链常被包装成「让模型一步步想,它就更聪明」,这个说法有误导性:同一句提示能把 540B 模型拉上去,放到 10B 模型上却毫无起色甚至更差。这种能力得先潜伏在足够大的模型里,提示只是把它唤出来。如果你的模型不够大,这篇论文的配方救不了你。

关键结果

GSM8K(数学应用题): PaLM 540B 用思维链提示达到约 57%,而标准提示只有约 18%,并超过当时最优的「微调版 GPT-3 + 训练好的验证器」。
差距随规模放大,而非缩小: 在各种模型尺寸上,思维链相对标准提示的优势随模型变大而拉开,这正是涌现能力的标志,而不是一个固定的偏移量。
三类推理,不止数学: 该方法在算术、常识(如 CSQA、StrategyQA、日期理解)、符号推理(末字母拼接、抛硬币)上都有提升,而且能泛化到比示例更长的符号序列。
跨模型普遍成立: 在 GPT-3、LaMDA、PaLM 三个家族上都测过,规律一致:大模型受益、小模型不受益,所以这是规模的属性,而非某一种架构的偶然。

为什么现在重要

正是这篇论文,把「提示工程」从玄学变成可度量的能力,也是此后所有推理模型的概念种子。o1 / DeepSeek-R1 这一脉(训练模型在答题前先产出长段内部推理)就是它的自然延续:既然在提示里写步骤有用,那就训练模型自己生成这些步骤。思维链还把多步推理轨迹变成一个可以审视、批改、多次采样(自洽性)、并在强化学习里用来打分的一等对象。几乎所有现代推理技术都假设模型会吐出中间步骤,而这一假设的回报,最早就是在这篇论文里被证明的。

局限与存疑

诚实的警告很尖锐。规模是硬门槛: 100B 参数以下这套方法什么都给不了,所以对小模型或受效率约束的部署毫无用处。推理不一定忠实: 一条看着对的推理链可能因错误的理由蒙对答案,一条流畅的链也能信誓旦旦地为错误答案辩护。写出来的步骤并非模型真实计算的可靠窗口,这对任何安全或审计场景都很要命。它仍然是少样本提示: 结果依赖手写示例及其措辞,论文并未声称模型学到了通用算法,只是可能在模仿示例的风格。还有,57% 这个 GSM8K 头条数字在 2022 年初虽是最优,却远谈不上解决。思维链抬高了天花板,却没让小学数学变得可靠。

常见问题

一句话讲清思维链提示是什么?

思维链提示给大模型几个「先写中间推理步骤、再给最终答案」的示例,引导模型自己生成逐步推理轨迹,从而显著提高多步推理任务的准确率。

思维链提示在小模型上有用吗?

没用。思维链是一种涌现能力,大约要到 100B 参数及以上才出现;在更小的模型上它产出流畅却有缺陷的推理,往往还不如标准提示。

思维链让 GSM8K 提升了多少?

在 GSM8K 数学应用题上,PaLM 540B 配 8 个思维链示例达到约 57%,而标准提示约 18%,超过此前最优的「微调版 GPT-3 + 验证器」——且不需要任何额外训练。

思维链就是模型真实的推理过程吗?

不一定。生成的步骤确实会改变输出、提高准确率,但它不保证忠实记录模型的内部计算;一条链可能经由不靠谱的步骤蒙对答案,也可能为错误答案硬找理由。

一句话:把步骤摆给一个够大的模型看,它就学会一步步走完。这条提示,成了此后每一个推理模型的蓝本。阅读 arXiv 原文。