AI 智能体 · The Chinese University of Hong Kong
Orchestra-o1:全模态智能体编排详解
Orchestra-o1 把文本、图像、音频、视频拆给子智能体并行跑,GPT-5 当大脑在 OmniGAIA 拿 72.8%,训练的 8B 编排器拿 30.0%,居开源全模态智能体首位。
机构
中国科学院自动化研究所,研究方向覆盖计算机视觉、多模态学习与机器人。
AI 智能体 · The Chinese University of Hong Kong
Orchestra-o1 把文本、图像、音频、视频拆给子智能体并行跑,GPT-5 当大脑在 OmniGAIA 拿 72.8%,训练的 8B 编排器拿 30.0%,居开源全模态智能体首位。
中科院自动化所综述把 LLM 智能体的交互环境按八条属性轴和八个领域归类,再串起建模、合成、评测、协同进化整条流水线。最锋利的判断:现有环境几乎都撑不起多智能体场景。
HYDRA-X 用单个 ViT 统一图像和视频 tokenization,tubelet attention 与层级时间压缩把 DAVIS rFVD 做到 11.19,编辑总分 4.34。