AlphaGeometry:不用人类证明示例,解奥赛几何
AlphaGeometry 把神经语言模型和符号演绎结合起来,用合成定理与证明训练,在奥赛几何上接近金牌水平。
主题
激发并提升大语言模型的逐步推理能力。
AlphaGeometry 把神经语言模型和符号演绎结合起来,用合成定理与证明训练,在奥赛几何上接近金牌水平。
Direct Preference Optimization 把偏好微调变成类似分类的简单目标,避免显式奖励模型和强化学习循环。
GPT-4 技术报告公开的不是完整配方,而是一套衡量方式:多模态 Transformer、可预测扩展、后训练对齐和跨任务基准共同重塑了前沿 AI 预期。
Llama 3 不只是更大的开放权重模型,而是把多语言、代码、推理、工具使用和安全模型打包成一个公开模型家族。
只奖励答案对错、不喂人工推理过程,DeepSeek-R1 让大模型自发学会逐步推理,数学基准比肩 OpenAI o1,且开源 MIT 权重。