多模态模型 · 大模型推理

GPT-4:让前沿模型变得可评测的技术报告

GPT-4 技术报告公开的不是完整配方,而是一套衡量方式:多模态 Transformer、可预测扩展、后训练对齐和跨任务基准共同重塑了前沿 AI 预期。

解决什么问题

GPT-4 之前,大语言模型已经足够惊人,但大家仍不清楚规模、后训练和多模态能把一个通用系统推到什么程度。报告把 GPT-4 定义为可接收图像和文本输入、输出文本的模型,然后用专业考试、学术基准和安全评估去回答一个问题:这样的系统是否能在足够广的任务上稳定表现。

核心方法

OpenAI 将 GPT-4 描述为基于 Transformer 的下一 token 预测模型,再通过后训练对齐改善行为。报告非常明确地保留了许多细节:模型规模、数据细节和训练算力没有公开。因此它的技术重心不是复现配方,而是评测和可预测性,包括用小得多的训练运行去预测大模型表现的基础设施和优化方法。

关键结果

GPT-4 在大量专业和学术基准上表现出接近人类水平的能力,包括模拟律师资格考试中约前 10% 的成绩。报告还展示了对齐后在事实性和遵循期望行为上的提升。多模态示例也让图文交互成为前沿模型的正式能力,而不只是一个独立视觉 demo。

为什么重要

GPT-4 改变了实验室、公司和监管者讨论基础模型的方式。基准覆盖面、安全评估和部署行为,都成为模型发布的核心部分。它也让一个矛盾常态化:最有影响力的系统可以被大量评测,但其构建过程仍只部分透明。

局限与存疑

报告没有公开许多独立复现所需的细节。基准也无法完全衡量真实工作中的可靠性,更强表现并不消除幻觉、偏见或滥用风险。因此 GPT-4 既是里程碑,也是边界标记:它展示了前沿系统能做到什么,也提醒我们其构建方式仍有大量不透明之处。

一句话:GPT-4 把评测变成了模型叙事的一部分。