标签流形下的文章 - 科学空间|Scientific Spaces

24 Nov

生成扩散模型漫谈（三十一）：预测数据而非噪声

By 苏剑林 | 2025-11-24 | 12814位读者 | 引用

时至今日，LDM（Latent Diffusion Models）依旧是扩散模型的主流范式。借助Encoder对原始图像进行高倍压缩，LDM能显著减少训练与推理的计算成本，同时还能降低训难度，可谓一举多得。然而，高倍压缩也意味着信息损失，而且“压缩、生成、解压缩”的流水线也少了些端到端的美感。因此，始终有一部分人执着于“回到像素空间”，希望让扩散模型直接在原始数据上完成生成。

本文要介绍的《Back to Basics: Let Denoising Generative Models Denoise》正是这一思路的新工作，它基于原始数据往往处于低维子流形这一事实，提出模型应预测数据而不是噪声，由此得到“JiT（Just image Transformers）”，显著地简化了像素空间的扩散模型架构。

信噪之比

毋庸置疑，当今扩散模型的“主力军”依然是LDM，即便是前段时间颇为热闹的RAE，也只是声称LDM的Encoder已经“过时”了，要给它换一个新的更强的Encoder，但依然没改变“先压缩后生成”这一模式。

点击阅读全文...

分类：信息时代标签：损失函数, 生成模型, 扩散, 流形阅读全文 19 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前32岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

热门标签

随机文章

最近评论

WindATree: 苏老师您好，我也想问一个问题：我在哔站看过 19 年李宏毅老师讲 Glow 的视频，他提到了...
WindATree: 苏老师您好，我也想问一个问题：我在哔站看过 19 年李宏毅老师讲 Glow 的视频，他提到了...
Aikoin: 考古看到了这篇，太有意思了，原来RoPE的前身是这么来的
Iris_16: 了解了，感谢回答
董振晨: 大佬您好，想和您交流下meanflow的推理效果
Zhancun: Get! 最近Vincent Sitzmann对video generation的分享（知乎上...
苏剑林: 我知道，但你pretrain不是已经反超了吗，所以算是正常了。目前不正常的是sft，我猜是不是...
Mornmirror: 实验3关闭了warmup，但还是很奇怪
Mornmirror: pretrain的实验是from scratch的
baolinzheng: 不好意思，写错了，是后向。