微调与适配 · The Hong Kong Polytechnic University
Token 可教性:只监督 5% token 蒸馏大模型
TA-OPD 只监督教师修正落在学生 top-K 支撑集内的约 5% token,效果常追平甚至超过全 token 在线蒸馏(Qwen3-4B 蒸 1.7B:44.89 对 42.37)。
机构
一家专注大语言模型训练与蒸馏方法的 AI 研究团队/初创机构,与香港理工大学有合作研究。
微调与适配 · The Hong Kong Polytechnic University
TA-OPD 只监督教师修正落在学生 top-K 支撑集内的约 5% token,效果常追平甚至超过全 token 在线蒸馏(Qwen3-4B 蒸 1.7B:44.89 对 42.37)。