机构

CASIA

中国科学院自动化研究所,研究方向覆盖计算机视觉、多模态学习与机器人。

Orchestra-o1 把文本、图像、音频、视频拆给子智能体并行跑,GPT-5 当大脑在 OmniGAIA 拿 72.8%,训练的 8B 编排器拿 30.0%,居开源全模态智能体首位。

中科院自动化所综述把 LLM 智能体的交互环境按八条属性轴和八个领域归类，再串起建模、合成、评测、协同进化整条流水线。最锋利的判断：现有环境几乎都撑不起多智能体场景。

HYDRA-X 用单个 ViT 统一图像和视频 tokenization,tubelet attention 与层级时间压缩把 DAVIS rFVD 做到 11.19,编辑总分 4.34。