建设 云服务器 网站,外贸seo优化方法,2小时学会php网站建设,电商网站怎样优化DeepVisionary 每日深度学习前沿科技推送顶会论文分享#xff0c;与你一起了解前沿深度学习信息#xff01;
Parts2Whole革新#xff1a;多参照图定制人像#xff0c;创新自定义肖像生成框架#xff01; 引言#xff1a;探索多条件人像生成的新篇章
在数字内容创作…DeepVisionary 每日深度学习前沿科技推送顶会论文分享与你一起了解前沿深度学习信息
Parts2Whole革新多参照图定制人像创新自定义肖像生成框架 引言探索多条件人像生成的新篇章
在数字内容创作领域可控的人像生成技术正逐渐成为一个重要的研究方向。这项技术能够根据特定的文本描述、结构信号或更精确的外观条件来合成人像为用户提供了一种定制化的肖像解决方案。然而由于控制条件的复杂性尤其是在多种类型的条件输入和控制人体外观的各个方面时这项任务呈现出显著的挑战性。
最近我们介绍了一个名为Parts2Whole的新框架它旨在从多个参考图像生成定制化的人像包括姿势图像和人体外观的各个方面。我们的框架通过开发一个语义感知的外观编码器来保留不同人体部位的细节该编码器基于文本标签处理每个图像生成一系列多尺度特征图而不是单一图像令牌以此来保留图像维度。此外我们的框架通过在扩散过程中操作参考和目标特征的共享自注意机制支持多图像条件生成。我们通过结合参考人像中的遮罩信息来增强原始注意力机制允许精确选择任何部分。广泛的实验表明我们的方法在多部分可控人像定制化方面优于现有替代方案。
论文概览与链接
本文的核心贡献包括构建了一个名为Parts2Whole的新框架支持基于文本、姿势信号和人体外观多个方面的人像可控生成。我们提出了一个先进的多参考机制包括一个语义感知图像编码器和共享注意操作这些机制不仅保留了特定关键元素的细节而且通过我们提出的遮罩引导方法实现了精确的主体选择。实验表明我们的Parts2Whole能够从多种条件生成高质量的人像并与给定条件保持高度一致。
论文链接From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation
Parts2Whole框架简介
Parts2Whole是一个新颖的框架旨在从多个参考图像生成定制化的人像这些参考图像包括姿势图像和人体外观的各个方面例如头发、面部、衣物、鞋子等。该框架的核心是一个语义感知的外观编码器它能够保留不同人体部位的细节通过文本标签将每个图像处理成一系列多尺度特征图而不是单一图像令牌从而保留图像维度。此外Parts2Whole支持通过共享自注意力机制在扩散过程中跨参考和目标特征进行多图像条件生成。通过在参考人体图像中加入掩码信息增强了原始注意力机制允许精确选择任何部分。广泛的实验表明我们的方法在多部分可控人体图像定制方面优于现有的替代方案。
技术细节语义感知外观编码器
1. 设计和功能
语义感知外观编码器是Parts2Whole框架中的关键组件之一它基于参考U-Net架构设计。这个编码器将每个带有文本标签的图像编码成一系列图像维度的多尺度特征图从而保留了多个参考图像的外观细节和空间信息。额外的语义条件代表类别指令有助于保留每个方面的更丰富的形状和详细属性。
2. 实现细节
在实际应用中为避免因下采样造成掩码和原始图像之间的错位每个注意力层之前都会对掩码应用全一卷积核确保掩码保留关键区域。总体而言掩码引导的注意力增强了Parts2Whole精确提取参考图像中指定主题外观的能力。
3. 优势
与传统的图像编码器相比语义感知外观编码器通过对每个参考图像的不同部分提供文本类标签使编码器对人体外观的不同部分具有语义上的认识而不仅仅是执行图像的下采样和上采样操作。这种方法不仅细节丰富而且灵活真实有助于生成高质量的人体图像。
技术细节共享自注意力机制
1. 共享自注意力的设计与实现
在Parts2Whole框架中共享自注意力机制是核心技术之一它允许模型在多个参考图像和目标特征图之间有效共享信息。这种机制通过在扩散过程中跨参考和目标特征操作来支持多图像条件生成。具体来说我们不是直接将参考图像的特征添加到去噪U-Net中而是在自注意力层中使用共享的键keys和值values来实现特征注入。
例如在某个自注意力层中给定N个参考图像的特征( F_{1:N} )和去噪U-Net中的特征图( F_0 )我们将这些特征图侧面拼接作为自注意力层的输入表示为[ [F_0 | F_1 | … | F_N] ]。这允许( F_0 )上的每个位置s都能够访问自身和所有参考特征图的位置从而实现详细的信息整合。
2. 增强的掩码引导主题选择
为了进一步提高生成图像的控制能力和质量我们在共享自注意力机制中加入了掩码引导的主题选择功能。这一机制通过在参考图像中引入主题掩码使得在计算注意力图时可以精确地选择特定部分的特征避免了来自其他元素如背景的干扰。
具体实现中对于去噪U-Net中的特征图( F_0 )上的一个补丁s以及N个参考图像上的主题掩码( M_{1:N} )我们只将补丁s与这些掩码内的特征进行注意力计算。这确保了目标补丁s只与参考图像中指定主题的特征交互从而生成更自然、更符合目标条件的人像图像。
实验与评估
1. 实验设置
为了验证Parts2Whole模型的效果我们构建了一个包含约41,500对参考-目标图像对的多模态数据集。这些数据对包括多个参考图像如姿势图像和不同人体部位的外观图像以及具有相同个体但不同姿势的目标图像。我们使用了包括OpenPose、Human Parsing和DensePose在内的多种姿势图像以及头发、脸部、衣物等不同的人体部位图像。
2. 与现有方法的比较
我们将Parts2Whole与几种现有的主题驱动的解决方案进行了比较。这包括基于调整的方法如DreamBooth LoRA和Custom Diffusion和不需要调整的方法如IP-Adapter和SSR-Encoder。我们的实验结果显示Parts2Whole在生成多部分条件下的人像图像方面不仅在图像质量上优于这些现有方法而且在与给定条件的一致性上也表现更好。
3. 用户研究
我们进行了用户研究来进一步评估Parts2Whole与其他参考基准方法的比较。在测试集中随机选择了20对参考-目标对参与者需要根据图像的真实性、合理性和清晰度以及生成图像与参考图像之间的相似度来评分。结果表明我们的模型在与给定外观条件对齐方面具有明显的优势。
通过这些实验和用户研究我们证明了Parts2Whole在控制多部分人体外观条件下生成人像图像方面的有效性和优越性。
用户研究真实感与相似度的评价
在控制人像生成的领域真实感和相似度是评价生成模型性能的关键指标。用户研究通常侧重于评估生成图像的真实性和与参考图像的一致性。在我们的框架Parts2Whole中我们通过多种方法增强了这两个方面。
1. 真实感的评价
真实感主要通过用户的主观评价来衡量即用户观察生成的人像是否能够以为是真实拍摄的照片。在Parts2Whole中我们采用了高级的语义感知编码器和增强的掩模引导的自注意力机制这些技术帮助模型在生成图像时保留了更多的细节和特征从而提高了图像的真实感。
2. 相似度的评价
相似度的评价则更加具体它关注生成图像与参考图像在视觉和结构上的一致性。我们利用CLIP分数和DINO分数来量化生成图像与参考图像的相似度。此外我们还进行了用户研究邀请用户对生成图像的质量和与参考图像的相似度进行评分以获得更全面的评估。
案例展示
在Parts2Whole的应用中我们展示了几个关键的案例来展示模型的效果和灵活性。
1. 多参考图像的融合
通过结合多个参考图像的不同部分如头发、面部、服装等Parts2Whole能够生成完整的人像。这一点在图4中有所展示其中不同的参考图像被成功地融合在一起生成了一个既保持各部分特征又整体协调的人像。
2. 不同来源的参考部分
如图7所示我们的模型能够处理来自不同人的参考图像部分如一个人的脸部和另一个人的服装生成的图像既保留了各自的特征又在整体上保持了自然和谐。
3. 控制条件的灵活性
Parts2Whole支持从单一部分到多部分的各种组合如图6所示。这种灵活性使得模型可以广泛应用于个性化和定制化的人像生成。
通过这些案例我们展示了Parts2Whole在处理复杂和多样化的参考条件下生成高质量和高相似度人像的能力。
结论与未来工作展望
在本文中我们提出了一个名为Parts2Whole的新型框架用于控制人像生成依据多个参考图像包括不同的人体外观部分如头发、面部、衣物、鞋子等以及姿势图。通过双U-Net设计我们开发了一个语义感知的外观编码器将每个条件图像及其标签处理成多尺度特征图并通过共享自注意力机制将这些丰富的参考特征注入生成过程中。这种设计保留了来自多个参考的细节并显示出良好的效果。我们还通过加入主体遮罩来增强原始的自注意力机制使Parts2Whole能够从条件图像中指定部分合成人像。广泛的实验表明我们的Parts2Whole在图像质量和条件对齐方面表现良好。
未来工作展望
当前我们的Parts2Whole在512的分辨率下进行训练可能在某些生成结果中产生人为瑕疵。这可以通过使用更高分辨率和更大的扩散模型如SD-XL作为我们的基础模型来改进。此外基于我们的Parts2Whole实现层次化的服装试穿将是有价值的这将进一步推动个性化和精准控制的人像生成技术的发展。
关注DeepVisionary 了解更多深度学习前沿科技信息顶会论文分享