当前位置：首页 > news >正文

聊城制作网站连锁店装修

news 2025/12/20 20:15:28

聊城制作网站,连锁店装修,室内装修培训,住房城乡建设局网站前言在2022年#xff0c;人工智能创作内容#xff08;AIGC#xff09;成为了AI领域的热门话题之一。在ChatGPT问世之前#xff0c;AI绘画以其独特的创意和便捷的创作工具迅速走红#xff0c;引起了广泛关注。随着一系列以Stable Diffusion、Midjourney、NovelAI等为代表…前言在2022年人工智能创作内容AIGC成为了AI领域的热门话题之一。在ChatGPT问世之前AI绘画以其独特的创意和便捷的创作工具迅速走红引起了广泛关注。随着一系列以Stable Diffusion、Midjourney、NovelAI等为代表的文本生成图像的跨模态应用相继涌现与Stable Diffusion的开源Stable Diffusion以其出色的人物和场景生成效果备受瞩目。它包括文本生成图像、图像生成图像、特定角色的刻画甚至超分辨率和修复缺损图像等任务。介绍 Stable Diffusion的应用范围广泛这不仅因为它生成的图像逼真还因为它能够以多种不同的方式使用。让我们首先关注文本生成图像的方式text2img。在上述示例中我们输入了文本描述prompt模型就能够生成出一幅精美的图像。例如输入“天堂、广袤的、沙滩”就得到了一幅美丽的画面。除了文本到图像的转换另一种主要的使用方式是通过文本来修改现有图像。在这种情况下输入是文本和图像的组合。例如将文本描述为“海盗船”模型生成的图像就会包含海盗船。 Stable Diffusion组成模块 Stable Diffusion实际上是一个相当复杂的系统其中包含各种不同的模型模块。首先需要解决的问题是如何将人类理解的文字转换为计算机可理解的数学语言毕竟计算机无法理解自然语言。这就需要一个文本理解器text understander来帮助进行转换。在生成图像之前下图中蓝色的文本理解器首先将文本转换成某种计算机能够理解的数学表示 1.图片信息生成器上图粉色的模块是Stable Diffusion与别的Diffusion模型最大的区别之一也是SD性能提升的着急之一。首先需要明确一点图片信息生成器不直接生成图片而是生成较低维度的图片信息即所谓的隐空间信息latent space information。在下图中这个隐空间信息被表示为粉色的 4x3 的方格随后将这个隐空间信息输入到下图中黄色的解码器中就可以成功生成图片了。Stable Diffusion主要引用的论文“latent diffusion”中的latent一词也来自于隐变量中的“latent”。一般的Diffusion模型直接生成图片而不会有先生成隐变量的过程因此普通的Diffusion在这一步上需要生成更多的信息负荷也更大。因此之前的Diffusion模型在速度和资源利用上都不如Stable Diffusion。技术上来说这个图片隐变量是如何生成的呢实际上这是由一个Unet和一个Schedule算法共同完成的。Schedule算法控制生成的进度而Unet则负责一步一步地执行生成的过程。在Stable Diffusion中整个Unet的生成迭代过程大约需要重复 50~100 次隐变量的质量也在这个迭代的过程中不断地改善。下图中粉色的Image Information Creator左下角的循环标志也象征着这个迭代的过程。 2、图片解码器图片解码器从图片信息生成器Image Information Creator中接收图片信息的隐变量然后将其升维放大upscale还原成一张完整的图片。图片解码器只在最后的阶段起作用也是我们能获得一张真实图片的最终过程。现在让更具体地了解一下这个系统中输入输出的向量形状这样对Stable Diffusion的工作原理应该能有更直观的认识文本编码器蓝色模块功能将人类语言转换成机器能理解的数学向量。输入人类语言输出语义向量77,768。图片信息生成器粉色模块功能结合语义向量逐步去除噪声生成图片信息的隐变量。输入噪声隐变量4,64,64语义向量77,768输出去噪的隐变量4,64,64。图片解码器功能将图片信息的隐变量转换为一张真正的图片。输入去噪的隐变量4,64,64输出一张真正的图片3,512,512。大概流程中的向量形状变化就是这样。至于语义向量的形状为什么是奇怪的77,768会在后面讲到文本编码器里的CLIP模型时解释。 Stable Diffusion定义 Diffusion模型的名称翻译成中文就是扩散模型扩散的过程发生在Image Information Creator模块中首先使用随机函数生成一个与隐变量大小相同的纯噪声下图中左下角透明的4x4区域。一旦有了初始的纯噪声下图中左下角透明的4x4区域和语义向量下图中左上角蓝色的3x5区域Unet就会结合语义向量不断地去除纯噪声隐变量中的噪声。大约重复50~100次左右就完全去除了噪声并且不断向隐变量中注入语义信息这样我们就得到了一个带有语义的隐变量下图中粉色的4x4区域。同时我们还有一个scheduler用来控制Unet去噪的强度统筹整个去噪的过程。Scheduler可以在去噪的不同阶段动态调整去噪强度也可以在某些特殊任务中匀速去除噪声这都取决于我们最初的设计。这个过程是通过一系列迭代步骤来去除噪声的每一步都向隐变量中注入语义信息直到噪声被完全去除。为了更直观地理解可以将初始的纯噪声左上方的透明44图像和最终的去噪隐变量右上方的粉色44图像都通过最终的图像解码器进行解码观察生成的图片。如预期所示初始的纯噪声本身并不包含有效信息因此解码后的图片仍然是噪声。而经过去噪处理后的隐变量已经包含了语义信息所以解码后的图片会呈现出包含有效语义信息的图像。迭代过程是多次重复的过程。每一次迭代的输入是一个隐变量经过处理后输出也是一个隐变量但噪声减少了同时蕴含更多的语义信息。在下图中4*4的隐变量从透明变成粉色的过程代表了迭代的过程。颜色越粉代表迭代次数越多噪声也就越少。在这个阶段使用图像解码器可以提前观察到每一步所对应的图片这样就可以逐步观察到我们期望的图像是如何从噪声中逐步生成的。测试秋叶整合包是简化了Stable Diffusion的安装和使用过程使得没有编程背景的用户也能轻松地进行AI绘画创作。并提供详细的教程、资源和技术支持。首先确保计算机装备了Nvidia的独立显卡N卡尤其是RTX40系列或更高级别的显卡显存应达到6GB以上可以提高AI绘画的效率。如果没有N卡可以使用CPU进行图形计算但速度较慢性价比也较低。此外需要CPU性能足够高并且至少有16GB的内存。总的来说进行AI绘画时推荐使用N卡特别是RTX30系列或更高级别的显卡以提高效率和性能。秋叶整合包的源文件只分享在夸克网盘上我这里把它转存到百度网盘https://pan.baidu.com/s/1C8QBbshpgpIxBOTwsMYjaQ 提取码: pth5 这里的版本是4.6。 1.查看自己的GPU 查看GPU与内存大小6G显存是出图的最低配置 2.启动项目下载之后安装启动所需依赖安装过.NET6的可以跳过这一步不懂的再安装一遍也没问题解压“sd-webui-aki-v4.zip”。选择一个最少有20G以上的磁盘因为解压出来的文件加上模型会很大然后进入解压后的文件夹 sd-webui-aki-v4 。双击“A启动器.exe”它会自动下载一些最新的程序文件。可能还会弹出了“设置Windows支持长路径”确定就可以了。启动成功后会打开下边这个界面。如果啥都做完了也没打开这个界面就再次双击这个文件或者以管理员身份运行。之后点击 “一键启动然后会弹出一个控制台窗口做一些初始化的操作出现“Startup time …”的提示就代表启动成功了。然后会自动在浏览器中打开SD WebUI的窗口。不小心关了的时候也可以用 http://127.0.0.1:7860 再次打开。打开的界面如下图所示测试出图要生成图像只需以下五个简单步骤选择模型可以使用默认的大型模型anything-v5。添加VAE模型。提供提示词用英文描述你想要的图像内容。设置反向提示词用英文描述你不想要在图像中出现的内容。点击生成按钮。图像生成的速度取决于你的计算机性能稍等片刻即可。完成后你可以点击图像放大查看并右键下载。常用概念模型Model模型可以理解为一个函数接受一系列参数作为输入并生成相应的输出。在这里模型接收一些参数如提示词、反向提示词、图片尺寸、提示词引导系数、随机数种子等并返回生成的图像数据。大模型Big Model大模型通常称为基础模型其文件大小通常在2GB至5GB之间。这些模型经过大量数据的训练具有数十亿、甚至上百亿个参数。SD官方发布了一个通用的大模型但由于其通用性不能满足所有需求。因此许多组织或个人会训练特定领域的模型并将其发布到社区供大家使用。 VAE模型Variational Autoencoder ModelVAE模型类似于图片编辑软件中的滤镜可以增强图像的色彩和线条使图像看起来更加丰富。一些大模型可能已经集成了VAE模型但用户也可以选择添加一个额外的VAE模型。常用的VAE模型之一是编号为840000的模型用于增强图像的色彩。 Lora模型Lora模型是基于大模型的风格模型用于控制图像的风格和特征。例如在绘制人物时可以使用Lora模型控制服装和头饰的样式在绘制机械四肢时可以使用Lora模型强调机甲样式在绘制风景时可以使用Lora模型控制绘画风格。提示词Prompt提示词用于描述期望生成的图像内容。例如描述场景、人物或物体的特征。良好的提示词对于生成所需的图像至关重要。反向提示词Negative Prompt反向提示词用于描述不希望在生成图像中出现的内容。例如排除特定物体或场景。使用通用的反向提示词可以简化此过程。随机数种子Random Seed随机数种子影响生成图像的随机性。即使其他参数相同不同的随机数种子也会产生不同的图像。这使得每次生成的图像都具有一定的差异增加了创作的多样性。

查看全文

http://www.pierceye.com/news/504476/