强化学习 · Tianjin University 多域 RL 为何会遗忘,一次数学复习就能治好 按数学→代码→问答→写作顺序做 RL 后训练,数学从峰值 66.49 跌到 57.66,可梯度看上去却是正交的。末尾补一段短数学复习,数学回到 66.04,其余三域几乎不动。