当前位置：首页 > news >正文

搜索引擎网站的结构买卖交易网

news 2025/11/18 8:47:18

搜索引擎网站的结构,买卖交易网,温州联科网站建设,一站式进货平台网站建设代码#xff1a; https://huggingface.co/stabilityai/sdxl-turbo 使用 SDXL-Turbo 是SDXL 1.0的精炼版本#xff0c;经过实时合成训练。SDXL-Turbo 基于一种称为对抗扩散蒸馏 (ADD) 的新颖训练方法#xff08;请参阅技术报告#xff09;#xff0c;该方法允许在高图像质…代码 https://huggingface.co/stabilityai/sdxl-turbo 使用 SDXL-Turbo 是SDXL 1.0的精炼版本经过实时合成训练。SDXL-Turbo 基于一种称为对抗扩散蒸馏 (ADD) 的新颖训练方法请参阅技术报告该方法允许在高图像质量下以 1 到 4 个步骤对大规模基础图像扩散模型进行采样。这种方法使用分数蒸馏来利用大规模现成的图像扩散模型作为教师信号并将其与对抗性损失相结合以确保即使在一个或两个采样步骤的低步骤状态下也能确保高图像保真度。 pip install diffusers transformers accelerate --upgrade文本到图像 SDXL-Turbo 不使用guidance_scale或negative_prompt我们使用禁用它guidance_scale0.0。优选地模型生成尺寸为 512x512 的图像但更高的图像尺寸也可以。只需一个步骤就足以生成高质量的图像。 from diffusers import AutoPipelineForText2Image import torchpipe AutoPipelineForText2Image.from_pretrained(stabilityai/sdxl-turbo, torch_dtypetorch.float16, variantfp16) pipe.to(cuda)prompt A cinematic shot of a baby racoon wearing an intricate italian priest robe.image pipe(promptprompt, num_inference_steps1, guidance_scale0.0).images[0] 图像到图像当使用 SDXL-Turbo 进行图像到图像生成时请确保num_inference_steps*strength大于或等于 1。图像到图像管道将运行多个int(num_inference_steps * strength)步骤例如在下面的示例中0.5 * 2.0 1 个步骤。 from diffusers import AutoPipelineForImage2Image from diffusers.utils import load_imagepipe AutoPipelineForImage2Image.from_pretrained(stabilityai/sdxl-turbo, torch_dtypetorch.float16, variantfp16)init_image load_image(https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png).resize((512, 512))prompt cat wizard, gandalf, lord of the rings, detailed, fantasy, cute, adorable, Pixar, Disney, 8kimage pipe(prompt, imageinit_image, num_inference_steps2, strength0.5, guidance_scale0.0).images[0] 论文 https://stability.ai/research/adversarial-diffusion-distillation 摘要我们引入了对抗性扩散蒸馏Adversarial Diffusion Distillation简称ADD这是一种新颖的训练方法能够在仅1-4步内高效采样大规模基础图像扩散模型同时保持高图像质量。我们利用分数蒸馏来利用大规模现成的图像扩散模型作为教师信号结合对抗损失以确保在一两个采样步骤的低阶段仍保持高图像保真度。我们的分析表明我们的模型在单步中明显优于现有的少步方法GANs、潜在一致性模型并在仅四步中达到了最先进的扩散模型SDXL的性能水平。ADD是第一种能够解锁基础模型的单步、实时图像合成方法。引言扩散模型DMs[20, 63, 65]在生成建模领域发挥了核心作用最近在高质量图像[3, 53, 54]和视频[4, 12, 21]合成方面取得了显著进展。DMs的关键优势之一是其可扩展性和迭代性质使其能够处理诸如从自由文本提示中合成图像等复杂任务。然而DMs中的迭代推理过程需要大量采样步骤这目前阻碍了其实时应用。生成对抗网络GANs[14, 26, 27]则以其单步公式和固有速度为特点。但是尽管尝试扩展到大型数据集[25, 58]GANs在样本质量方面通常不及DMs。本工作的目标是将DMs的卓越样本质量与GANs的固有速度结合起来。我们的方法在概念上很简单我们提出了对抗性扩散蒸馏Adversarial Diffusion Distillation简称ADD这是一种通用方法将预训练扩散模型的推理步骤减少到1-4个采样步骤同时保持高采样保真度可能进一步提高模型的整体性能。为此我们引入了两个训练目标的组合i对抗性损失和ii对应于分数蒸馏采样SDS[51]的蒸馏损失。对抗性损失迫使模型在每次前向传递中直接生成位于真实图像流形上的样本避免了在其他蒸馏方法[43]中通常观察到的模糊和其他伪像。蒸馏损失使用另一个预训练且固定的DM作为教师以有效利用预训练DM的丰富知识并保留大型DM中观察到的强组合性。在推理过程中我们的方法不使用无分类器引导[19]进一步减少了内存需求。我们保留了模型通过迭代细化改进结果的能力这是相对于先前的单步GAN-based方法[59]的优势。我们的贡献可以总结如下我们引入了ADD一种将预训练扩散模型转化为高保真度、实时图像生成器的方法仅使用1-4个采样步骤。我们的方法使用对抗训练和分数蒸馏的新颖组合我们仔细分析了几个设计选择。ADD在很大程度上优于LCM、LCM-XL [38]和单步GANs [59]等强基线并且能够处理复杂的图像组合同时在仅一个推理步骤中保持高图像逼真度。使用四个采样步骤ADD-XL在分辨率为5122 px时优于其教师模型SDXL-Base。背景虽然扩散模型在合成和编辑高分辨率图像[3, 53, 54]和视频[4, 21]方面取得了显著的性能但它们的迭代性质阻碍了实时应用。潜在扩散模型[54]尝试通过在一个计算上可行的潜在空间中表示图像来解决这个问题[11]但它们仍然依赖于具有数十亿参数的大型模型的迭代应用。除了利用扩散模型的更快采样器[8, 37, 64, 74]之外还有越来越多关于模型蒸馏的研究如渐进蒸馏[56]和引导蒸馏[43]。这些方法将迭代采样步骤减少到4-8步但可能显著降低原始性能。此外它们需要迭代的训练过程。一致性模型[66]通过对ODE轨迹强制执行一致性正则化解决了后者问题并在少样本设置中对基于像素的模型表现出强大性能。LCMs [38]专注于蒸馏潜在扩散模型并在4个采样步骤上取得了令人印象深刻的性能。最近LCM-LoRA [40]引入了一种低秩适应[22]训练以有效学习LCM模块可以插入到不同的SD和SDXL [50, 54]的检查点中。InstaFlow [36]提出使用矫正流[35]来促进更好的蒸馏过程。所有这些方法都共享共同的缺陷**在四个步骤中合成的样本通常看起来模糊并显示明显的伪像。**在更少的采样步骤中这个问题会进一步放大。**GANs [14]也可以作为独立的单步模型进行文本到图像合成的训练[25, 59]。它们的采样速度令人印象深刻但性能落后于基于扩散的模型。**部分原因可以归因于用于稳定对抗目标训练的GAN特定架构的微妙平衡。在不干扰平衡的情况下扩展这些模型并整合神经网络架构的进展是非常具有挑战性的。此外目前最先进的文本到图像GANs没有类似于扩散模型规模的无分类器引导方法。分数蒸馏采样[51]也被称为分数雅可比链[68]是一种最近提出的方法旨在将基础T2I模型的知识蒸馏到3D合成模型中。尽管大多数基于SDS的工作[45, 51, 68, 69]在上下文是图像编辑[16]。最近[13]的作者展示了基于分数的模型与GANs之间的强关系并提出了Score GANs这些GANs是使用来自扩散模型的基于分数的扩散流进行训练的而不是使用鉴别器。类似地Diff-Instruct [42]是一种泛化SDS的方法可以将预训练的扩散模型蒸馏成一个没有鉴别器的生成器。相反还有一些方法旨在通过对抗性训练来改进扩散过程。为了实现更快的采样Denoising Diffusion GANs [70]被引入作为一种能够通过少数步骤进行采样的方法。为了提高质量在Adversarial Score Matching [24]中将鉴别器损失添加到分数匹配目标中而在CTM [29]的一致性目标中添加了一致性目标。我们的方法结合了对抗性训练和分数蒸馏形成了一个混合目标以解决当前表现最佳的少步生成模型存在的问题。方法我们的目标是在尽可能少的采样步骤中生成高保真度的样本同时匹配最先进的模型的质量[7, 50, 53, 55]。对抗目标[14, 60]自然地适用于快速生成因为它训练一个能够在单个前向步骤中输出图像流形上的样本的模型。然而将GANs扩展到大型数据集的尝试[58, 59]观察到不仅仅依赖于鉴别器还要使用预训练的分类器或CLIP网络来改善文本对齐至关重要。正如在[59]中所指出的过度使用判别网络会引入伪像影响图像质量。相反我们利用预训练扩散模型的梯度通过分数蒸馏目标来改善文本对齐并在推理期间生成纯噪声。对于对抗目标生成的样本xˆθ和真实图像x0被传递给鉴别器鉴别器的目标是区分它们。鉴别器的设计和对抗性损失的详细描述在第3.2节中。为了从DM教师中提取知识我们将学生样本xˆθ通过教师的前向过程扩散到xˆθ,t并使用教师的降噪预测xˆψ(xˆθ,t, t)作为分数蒸馏损失Ldistill的重建目标详见第3.3节。略看下图 ADD-XL这一步法看起来确实牛。实验在我们的实验中我们训练了两个不同容量的模型ADD-M860M参数和ADD-XL3.1B参数。对于对ADD-M进行消融实验我们使用了稳定扩散SD2.1骨干[54]为了与其他基线进行公平比较我们使用了SD1.5。ADD-XL利用了SDXL [50]骨干。所有实验都在标准分辨率512x512像素下进行生成更高分辨率的模型的输出被降采样到这个大小。我们在所有实验中使用了蒸馏权重因子 λ 2.5。此外R1惩罚强度 γ 设置为10^−5。对于鉴别器的条件我们使用预训练的CLIP-ViT-g-14文本编码器[52]来计算文本嵌入 ctext以及DINOv2 ViT-L编码器[47]的CLS嵌入来计算图像嵌入 cimg。对于基线我们使用了最好的公开可用模型潜在扩散模型[50, 54]SD1.5 1SDXL 2级联像素扩散模型[55]IF-XL 3蒸馏扩散模型[39, 41]LCM-1.5LCM-1.5-XL 4以及OpenMUSE[48]MUSE[6]的重新实现这是专门为快速推理开发的变压器模型。请注意我们将其与SDXL-Base-1.0模型进行比较没有其额外的细化模型这是为了确保公平比较。由于没有公开的最先进GAN模型我们使用改进的鉴别器重新训练StyleGAN-T [59]。这个基线StyleGAN-T在FID和CS方面明显优于以前最好的GANs详见附录。我们通过FID [18]量化样本质量通过CLIP分数 [17]量化文本对齐。对于CLIP分数我们使用在LAION-2B [61]上训练的ViT-g-14模型。这两个指标都在来自COCO2017 [34]的5k个样本上进行评估。 4.1 消融研究我们的训练设置在对抗性损失、蒸馏损失、初始化和损失相互作用方面打开了许多设计空间。我们在表1中对几个选择进行了消融研究每个表格下面都强调了一些关键的见解。我们将在接下来讨论每个实验。鉴别器特征网络表1a。最近Stein等人的研究[67]表明使用CLIP [52]或DINO [5, 47]目标训练的ViTs特别适用于评估生成模型的性能。同样这些模型似乎也有效作为鉴别器特征网络其中DINOv2成为最佳选择。鉴别器条件表1b。与先前的研究类似我们观察到鉴别器的文本条件会增强结果。值得注意的是图像条件优于文本条件同时使用ctext和cimg的组合产生最佳结果。学生预训练表1c。我们的实验表明预训练ADD-student的重要性。能够使用预训练的生成器是纯GAN方法的重要优势。GAN的一个问题是缺乏可扩展性Sauer等人[59]和Kang等人[25]观察到在达到一定网络容量后性能会出现饱和。这一观察与DMs的一般平稳缩放规律形成对比[49]。然而ADD可以有效利用更大的预训练DMs见表1c并受益于稳定的DM预训练。损失项表1d。我们发现两种损失都是必不可少的。蒸馏损失本身并不有效但与对抗性损失结合时结果明显改善。不同的权重计划导致不同的行为指数计划倾向于产生更多样化的样本如FID较低所示SDS和NFSD计划改善了质量和文本对齐。虽然在所有其他消融中我们都将指数计划作为默认设置但我们选择了NFSD权重来训练我们的最终模型。选择最佳权重函数提供了改进的机会。另外考虑在训练过程中调整蒸馏权重的时间表正如3D生成建模文献中所探讨的[23]也是一个考虑的选择。教师类型表1e。有趣的是更大的学生和教师并不一定导致更好的FID和CS。相反学生会采用教师的特征。SDXL通常获得更高的FID可能是因为其输出不太多样化但它展示了更高的图像质量和文本对齐[50]。教师步骤表1f。虽然我们的蒸馏损失公式允许通过构建采用教师的连续步骤但我们发现多个步骤并不能明确导致更好的性能。 4.2 与最先进技术的定量比较对于我们与其他方法的主要比较我们避免使用自动化指标因为用户偏好研究更可靠[50]。在这项研究中我们旨在评估提示的遵循和整体图像。作为性能度量我们计算了成对比较的获胜百分比和比较4.3 定性结果为了补充上述的定量研究我们在本节中呈现定性结果。为了呈现一个更完整的画面我们在附录中提供了额外的样本和定性比较。图3比较了ADD-XL1步与当前最佳基线在少步骤方案中的效果。图4说明了ADD-XL的迭代采样过程。这些结果展示了我们模型在改善初始样本方面的能力。这种迭代改进代表了与纯GAN方法如StyleGAN-T相比的另一个显著优势。最后图8直接将ADD-XL与其教师模型SDXL-Base进行了比较。正如在第4.2节的用户研究中所指出的ADD-XL在质量和提示对齐方面均优于其教师。增强的逼真感是以稍微降低样本多样性为代价的。讨论本研究介绍了Adversarial Diffusion Distillation这是一种将预训练扩散模型蒸馏成快速、少步图像生成模型的通用方法。我们结合对抗目标和分数蒸馏目标对Stable Diffusion [54]和SDXL [50]模型进行蒸馏通过鉴别器利用真实数据和通过扩散教师利用结构理解。我们的方法在一步或两步的超快速采样方案中表现特别好我们的分析表明在这个方案中它优于所有同时期的方法。此外我们保留了使用多步骤来细化样本的能力。事实上使用四个采样步骤我们的模型胜过了广泛使用的多步生成器如SDXL、IF和OpenMUSE。我们的模型使得在单步中生成高质量图像成为可能为基础模型的实时生成开辟了新的可能性。使用ADD-XL四步就能更牛推理速度顶级图像质量出色并且和文本贴合一步也不是很差

查看全文

http://www.pierceye.com/news/59113/