机构

University of Maryland

位于学院市的公立研究型大学,在优化、效率与深度学习科学方向的机器学习研究上知名。

LCLM 把 0.6B 编码器和 4B 解码器联合训练,把长上下文压成软 token,支持 1:4、1:8、1:16,显著降低预填充显存和首 token 延迟,精度接近未压缩基线。