长上下文 · University of Maryland 端到端上下文压缩:LCLM 大规模训练解读 LCLM 把 0.6B 编码器和 4B 解码器联合训练,把长上下文压成软 token,支持 1:4、1:8、1:16,显著降低预填充显存和首 token 延迟,精度接近未压缩基线。