主题

语音合成

文本转语音与声音生成模型,涵盖零样本、表现力与对话合成。

视频生成 · KAIST

Lip Forcing:实时口型同步的少步自回归扩散

首个自回归扩散口型同步法:把 14B 双向教师蒸馏成因果学生,每块只跑 2 步去噪,1.3B 跑到 31.58 FPS,首帧延迟亚毫秒。

语音合成 · Independent Researcher

长语音生成的综合基准论文详细解读

长语音生成的综合基准把长语音生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

语音合成 · Independent Researcher

MMAE:大规模音频编辑基准论文详细解读

MMAE:大规模音频编辑基准把音频编辑评测变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

语音合成 · Zhejiang University

SwanSphere：从视频和文本流式生成空间音频

SwanSphere 流式生成与视频/文本同步的一阶环绕声，首块仅 0.21 秒出声，Frechet 距离压到 120.28（OmniAudio 为 157.67），质量与实时兼得。

语音合成 · Microsoft Research

NaturalSpeech 2:用扩散模型做零样本语音合成

NaturalSpeech 2 用神经音频 codec 隐向量上的扩散模型做 TTS,训练覆盖 4.4 万小时语音和歌唱数据,重点补零样本韵律。

语音合成 · Microsoft Research

VALL-E:用音频 token 做零样本语音合成

VALL-E 把 TTS 改写成音频 codec token 的语言建模任务,用 6 万小时语音和 3 秒提示做个性化合成,但滥用风险很高。

语音合成 · ByteDance

SwanVoice:面向长篇独白与对话的零样本语音合成

SwanVoice 一次性生成整段 1-4 人对话,跨轮保持音色、情绪、韵律一致,补上逐轮合成的拼接感,代价是内容准确率仍是最弱环节。