长语音生成的综合基准论文详细解读
长语音生成的综合基准把长语音生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
主题
文本转语音与声音生成模型,涵盖零样本、表现力与对话合成。
长语音生成的综合基准把长语音生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
MMAE:大规模音频编辑基准把音频编辑评测变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
SwanSphere 流式生成与视频/文本同步的一阶环绕声,首块仅 0.21 秒出声,Frechet 距离压到 120.28(OmniAudio 为 157.67),质量与实时兼得。
NaturalSpeech 2 用神经音频 codec 隐向量上的扩散模型做 TTS,训练覆盖 4.4 万小时语音和歌唱数据,重点补零样本韵律。
VALL-E 把 TTS 改写成音频 codec token 的语言建模任务,用 6 万小时语音和 3 秒提示做个性化合成,但滥用风险很高。
SwanVoice 一次性生成整段 1-4 人对话,跨轮保持音色、情绪、韵律一致,补上逐轮合成的拼接感,代价是内容准确率仍是最弱环节。