优化网站目录结构,如何搭建自己的网站,加盟网站建设案例欣赏,高平网站优化公司概述
Diffusion 模型在生成图像时最大的瓶颈是速度过慢的问题。为了解决这个问题#xff0c;Stable Diffusion 采用了多种方式来加速图像生成#xff0c;使得实时图像生成成为可能。最核心的加速是Stable Diffusion 使用了编码器将图像从原始的 3512512 大小转换为更小的 46…概述
Diffusion 模型在生成图像时最大的瓶颈是速度过慢的问题。为了解决这个问题Stable Diffusion 采用了多种方式来加速图像生成使得实时图像生成成为可能。最核心的加速是Stable Diffusion 使用了编码器将图像从原始的 3512512 大小转换为更小的 46464 大小从而极大地降低了计算量。它还利用了潜在表示空间latent space上的 Diffusion 过程进一步降低了计算复杂度同时也能保证较好的图像生成效果。在 消费级GPU 上8G显存Stable Diffusion 要生成一张描述复杂图像大概需要 4 秒时间。
然而对于许多面向消费者的应用来说每张图像生成需要 4 秒的耗时仍然过长。这时候TensorRT 就发挥了重要作用。TensorRT 是英伟达NVIDIA推出的高性能深度学习推理inference库旨在优化和加速深度学习模型的推理过程。它能够将训练好的深度学习模型优化并部署到 NVIDIA GPU 上实现实时推理任务的高效执行。TensorRT 的设计目标是提高推理性能、减少延迟和资源消耗并支持在边缘设备上运行。
TensorRT 提供了许多优化技术包括网络层融合layer fusion、内存优化、精度降级precision calibration、量化quantization和深度学习模型的裁剪network pruning。通过这些技术TensorRT 可以最大限度地利用 GPU 的并行计算能力实现深度学习模型的高效执行。
2023年10月18日 Nvidia终于推出了官方的TensorRT插件Stable-Diffusion-WebUI-TensorRT该插件可以直接在 webui 的 extension 中安装即可默认支持cuda11.x。
环境配置要求
要使用Stable-Diffusion-WebUI-TensorRT插件加速有几个重要的前提条件GPU必须是NVIDIA的俗称N卡GPU的显存必须在8G以上包含8GGPU驱动版本大于等于537.58,如果电脑没有别的深度学习模型要训练建议驱动更新到最新的版本。物理内存大于等于16G。 支持Stable-Diffusion1.5,2.1SDXLSDXL Turbo 和 LCM。对于 SDXL 和 SDXL Turbo官方推荐使用具有12GB 或更多 VRAM 的 GPU以获得最佳性能。 查看GPU驱动版本 查看内存与显卡型号
我使用的环境是win10,GPU 3080 10G显存32G内存Stable Diffusion用的是秋叶大佬的4.5这个版本。
Stable-Diffusion-WebUI-TensorRT安装
1.安装
启动Stable-Diffusion-WebUI找到扩展然后从网址安装TensorRT插件 插件网址https://github.com/NVIDIA/Stable-Diffusion-WebUI-TensorRT.git 点击安装 等侍2到10分钟安装完成
然后重启Stable-Diffusion-WebUI就可以看到
2.设置
打开设置——用户界面——快捷设置列表——输入sd_unet,然后保存设置重载UI 重启之后就可以看到多了一个SD Unet的选框了
3.模型转换
选择要使用的模型然后打开TensorRT——TensorRT导出——选择预设尺寸——导出引擎: 关于导出尺寸这是要设置不用尺寸但尺寸大小只能是2的幕这里面导出的模型为onnx模型如果接触过深度学习的都清楚这个尺寸的含义。
4. 测试推理速度
使用TensorRT推理时选择的模型与SD Unet要对应出图的宽度与高度也要对应上一步导出的模型的尺寸
测试出图速度使用TensorRT出图时第一张图会很慢要计算时间可以从第二张开始算下面出图尺寸是1024*1024
使用TensorRT推理 不使用TensorRT推理可以看出慢了2点几秒差不多3秒
使用TensorRT推理出图尺寸512*512
不使用TensorRT推理出图尺寸512*512可以看出不使用TensorRT差不多要慢上一倍左右