Audio Interaction Model:会自己决定何时开口的流式音频大模型
Audio Interaction Model 用「感知-决策-响应」循环,让音频大模型边听边判断要不要回、何时回并即时作答;基于 StreamAudio-2M 训练,8 个基准有竞争力。
机构
昆仑旗下的中国 AI 实验室,研发覆盖语言、音频与视频的多模态基础模型。
Audio Interaction Model 用「感知-决策-响应」循环,让音频大模型边听边判断要不要回、何时回并即时作答;基于 StreamAudio-2M 训练,8 个基准有竞争力。