机构

Ant Group

支付宝背后的中国金融科技公司,研究团队深耕大规模机器学习、可信 AI 与基础模型,并参与合著了 LLaDA 扩散语言模型。

MemDreamer 把长视频问答变成在三层图记忆上的智能体检索,LVBench 从 78.2 升到 90.7(+12.5),推理只读约 6K token,不是 24 万到 78 万。

SearchSwarm 在 Tongyi DeepResearch-30B-A3B 上微调 harness 委派轨迹,把 BrowseComp 从 43.4 拉到 68.1,居同规模榜首。

N-GRPO 用语义邻居混合扰动 rollout embedding,把 1.5B 模型平均 Pass@32 提到 79.17,AIME25 提到 50.28。

SkillAdaptor 不动模型权重,只从失败轨迹里改写技能库,WebShop 分数 +2.3、PinchBench +1.5,提升真实但有限。

LLaDA 用掩码扩散取代下一个词预测,8B 模型在上下文学习上与 LLaMA3 8B 持平,GSM8K 拿 70.7,反向补诗任务还反超 GPT-4o。