机构

Xiaohongshu

中国生活方式与社交电商平台,其研究团队从事大模型推理与强化学习研究。

NITP 在标准 NTP 之外加了一个稠密的表征监督:让模型预测下一个 token 的浅层表征。9B MoE 上 MMLU-Pro 提升 5.71 分,只多约 2% 训练算力,推理零开销。

AntiSD 把自蒸馏反过来,只奖励特权上下文与原模型分歧最大的 token,用 2 到 10 倍更少的步数追平 GRPO,在 4B 到 30B 的五个模型上最终高出至多 11.5 分。