StreamMA:多智能体推理里,边写边传比等完再传更聪明
StreamMA 让智能体生成一步推理就立刻流式传给下游,而不是等整条链写完。8 个基准平均涨 7.3 个百分点(HMMT 2026 最高 +22.4),并行场景最快提速 26.9 倍。
机构
香港科技大学,设有活跃的大模型推理与机器学习研究团队的研究型大学。
StreamMA 让智能体生成一步推理就立刻流式传给下游,而不是等整条链写完。8 个基准平均涨 7.3 个百分点(HMMT 2026 最高 +22.4),并行场景最快提速 26.9 倍。
Echo-Infinity 用可学习演化记忆以恒定成本压缩任意长度历史,单张 H100 上 18.5 FPS 实现 24 小时(超 130 万帧)实时生成。
在线策略蒸馏并非介于 SFT 与 RLVR 之间,而是自成一套几何:它改动更少权重、避开主方向,并在训练早期就锁进一个狭窄低维子空间。