Latent Diffusion:实用高分辨率图像生成的底层论文
Latent Diffusion 把去噪过程从像素空间搬到压缩后的自编码器潜空间,显著降低高分辨率图像生成成本,同时保留扩散模型的灵活性。
解决什么问题
扩散模型能生成很强的图像,但在像素空间里运行非常昂贵。高分辨率训练和采样需要在大张量上做许多步连续去噪,导致训练难、推理慢、适配成本高。Latent Diffusion 问的是:能不能把大部分去噪放到更小的学习表征里完成,同时尽量保留视觉质量。
核心方法
方法先训练一个自编码器,把图像压缩到潜空间,再以足够高的质量重建。扩散模型随后不在原始像素上运行,而是在这个潜空间里去噪。交叉注意力层让模型可以接收文本、边界框或其他条件输入。这样既保留扩散模型的灵活性,又大幅减少空间计算量。
关键结果
Latent Diffusion 在图像修复、无条件生成、语义合成、超分辨率和文生图条件生成上都达到很强质量,同时显著降低相对像素扩散的计算需求。这套架构后来成为 Stable Diffusion 和开放文生图生态的重要基础。
为什么重要
这篇论文的突破不仅是架构,也是成本。它让高分辨率扩散模型可以在更普通的硬件上训练和运行,把图像生成从封闭研究 demo 推向开放工具、创意工作流和下游微调。它改变了谁能使用和改造生成图像模型。
局限与存疑
压缩不是免费的。自编码器可能丢失细节、引入伪影,也会限制扩散模型能表达的内容。文本条件生成还依赖语言和图像对齐质量。后续系统不断提升保真度、控制能力和安全性,但潜空间取舍仍是核心:用一个学习瓶颈换来更低生成成本。
一句话:Latent Diffusion 让高分辨率扩散模型便宜到可以扩散开来。