南通网站建设 南大街,如何学会推广和营销,湖北勘察设计协会网站,开发公司终止函内容conditioning怎么往sd中添加#xff0c;一般有三种#xff0c;一种是直接和latent拼一下#xff0c;另外很多是在unet结构Spatialtransformers上加#xff0c;和文本特征一样#xff0c;通过cross-attention往unet上加#xff0c;这里还需要注意一点#xff0c;在文本嵌… conditioning怎么往sd中添加一般有三种一种是直接和latent拼一下另外很多是在unet结构Spatialtransformers上加和文本特征一样通过cross-attention往unet上加这里还需要注意一点在文本嵌入时q是可学习的k和v都是文本embedding。第三种就是类似controlnet这种adapter设计。
1.sd img2img
sd的img2img的图像输入是通过VAE将图像转成image latent和latent一起拼的将512x512的图转成64x64.
init_latent sd_model.get_first_stage_encoding(sd_model.encode_first_stage(image))
image_conditioning img2img_image_conditioning(image, init_latent, image_mask)
1.ip-adapter 通过解耦cross-attention的方式clip提取图像特征文本输入一个crossattention图像输入一个cross-attention。
3.controlnet
stable diffusion使用和vq-gan相似的预处理方法将512x512图像转成64x64的潜在图像controlnet将image-based condition就是从图像中获取线框图转成64x64我们使用4个4x4核和2x2strides的卷积层后接relu通常数分别是16,32,64,128,Guassian weights将image-space condition转成特征图。 4.powerpaint
输入由latentmasked_imagemask concat组合text侧还是clip编码之后送入unet进行cross-attention。 5.VideoComposer