Stable Diffusion 3论文发布，ai绘图架构细节揭秘，对复现Sora有帮助？

heshao1 · 发表于 2024-8-23 09:25:27

　　在众多前沿成果都不再透露技术细节之际，~~该外部链接已失效，文章作者登录实名后才能恢复访问~~Stable Diffusion 3 论文的发布显得相当珍贵。
　　Stable Diffusion 3 的论文终于来了！
　　这个模型于两周前发布，采用了与 Sora 相同的 DiT（Diffusion Transformer）架构，一经发布就引起了不小的轰动。
　　与之前的版本相比，Stable Diffusion 3 生成的图在质量上实现了很大改进，支持多主题提示，文字书写效果也更好了（明显不再乱码）。
　　Stability AI 表示，Stable Diffusion 3 是一个模型系列，参数量从 800M 到 8B 不等。这个参数量意味着，它可以在很多便携式设备上直接跑，大大降低了 AI 大模型的使用门槛。
　　在最新发布的论文中，Stability AI 表示，在基于人类偏好的评估中，Stable Diffusion 3 优于当前最先进的文本到图像生成系统，如 DALL・E 3、Midjourney v6 和 Ideogram v1。不久之后，他们将公开该研究的实验数据、代码和模型权重。
　　架构细节
　　对于文本到图像的生成，Stable Diffusion 3 模型必须同时考虑文本和图像两种模式。因此，论文作者称这种新架构为 MMDiT，意指其处理多种模态的能力。与之前版本的 Stable Diffusion 一样，作者使用预训练模型来推导合适的文本和图像表征。具体来说，他们使用了三种不同的文本嵌入模型 —— 两种 CLIP 模型和 T5—— 来编码文本表征，并使用改进的自编码模型来编码图像 token。
　　Stable Diffusion 3 模型架构。
　　改进的多模态扩散 transformer：MMDiT 块。
　　SD3 架构基于 Sora 核心研发成员 William Peebles 和纽约大学计算机科学助理教授谢赛宁合作提出的 DiT。由于文本嵌入和图像嵌入在概念上有很大不同，因此 SD3 的作者对两种模态使用两套不同的权重。如上图所示，这相当于为每种模态设置了两个独立的 transformer，但将两种模态的序列结合起来进行注意力运算，从而使两种表征都能在各自的空间内工作，同时也将另一种表征考虑在内。
　　在训练过程中测量视觉保真度和文本对齐度时，作者提出的 MMDiT 架构优于 UViT 和 DiT 等成熟的文本到图像骨干。
　　通过这种方法，信息可以在图像和文本 token 之间流动，从而提高模型的整体理解能力，并改善所生成输出的文字排版。正如论文中所讨论的那样，这种架构也很容易扩展到视频等多种模式。
　　得益于 Stable Diffusion 3 改进的提示遵循能力，新模型有能力制作出聚焦于各种不同主题和质量的图像，同时还能高度灵活地处理图像本身的风格。
　　通过 re-weighting 改进 Rectified Flow
　　Stable Diffusion 3 采用 Rectified Flow（RF）公式，在训练过程中，数据和噪声以线性轨迹相连。这使得推理路径更加平直，从而减少了采样步骤。此外，作者还在训练过程中引入了一种新的轨迹采样计划。他们假设，轨迹的中间部分会带来更具挑战性的预测任务，因此该计划给予轨迹中间部分更多权重。他们使用多种数据集、指标和采样器设置进行比较，并将自己提出的方法与 LDM、EDM 和 ADM 等 60 种其他扩散轨迹进行了测试。结果表明，虽然以前的 RF 公式在少步采样情况下性能有所提高，但随着步数的增加，其相对性能会下降。相比之下，作者提出的重新加权 RF 变体能持续提高性能。

账号		自动登录	找回密码
密码			开放注册

Stable Diffusion 3论文发布，ai绘图架构细节揭秘，对复现Sora有帮助？

浏览过的版块