当前位置：首页 > news >正文

怎样做信息收费网站设计网站制

news 2025/11/20 3:35:42

怎样做信息收费网站,设计网站制,如保做网站赢利,wordpress视频教程百度云作者 | 刘姝供稿 | 浪潮 MLPerf竞赛由图灵奖得主大卫帕特森#xff08;David Patterson#xff09;联合谷歌、斯坦福、哈佛大学等单位共同成立#xff0c;是国际上最有影响力的人工智能基准测试之一。在MLPerf V0.7推理竞赛开放赛道中#xff0c;浪潮信息通过模型压缩优…作者 | 刘姝供稿 | 浪潮 MLPerf竞赛由图灵奖得主大卫·帕特森David Patterson联合谷歌、斯坦福、哈佛大学等单位共同成立是国际上最有影响力的人工智能基准测试之一。在MLPerf V0.7推理竞赛开放赛道中浪潮信息通过模型压缩优化算法取得性能大幅提升将ResNet50的计算量压缩至原模型的37.5%压缩优化后的ResNet50推理速度相比优化前单GPU提升83%8GPU提升81%基于浪潮NF5488A5服务器每秒最多可以处理549782张图片排名世界第一。本文将重点介绍浪潮在比赛中使用的模型压缩算法的设计思路、实现方式及效果。 1. 什么是模型压缩为了提高识别准确率当前深度学习模型的规模越来越大。ResNet50参数量超过2500万计算量超40亿而Bert参数量达到了3亿。不管是训练还是推理部署这对平台的计算能力和存储能力都提出了非常高的要求。当前深度学习已经发展到部署应用普及阶段在移动端/嵌入式端设备计算/存储资源是有限的大模型难以适用。很多深度神经网络中存在显著的冗余仅仅训练一小部分原来的权值参数就有可能达到和原网络相近的性能甚至超过原网络的性能[1]。这给模型压缩带来了启发。模型压缩是通过特定策略降低模型参数量/计算量使其运行时占用更少的计算资源/内存资源同时保证模型精度满足用户对模型计算空间、存储空间的需求从而能够将模型更好地部署在移动端、嵌入式端设备让模型跑得更快、识别得更准。 2.常用模型压缩方法模型压缩有多种实现方法目前可分为5大类 1模型裁剪实现方式对网络中不重要的权重进行修剪降低参数量/计算量。使用方式分为非结构化裁剪与结构化裁剪非结构化裁剪需结合定制化软硬件库结构化裁剪无软硬件限制。 2模型量化实现方式以低比特位数表示网络权重如fp16/8bit/4bit/2bit降低模型的占用空间进行推理加速。使用方式需要定制化软硬件支持如TensorRT、TVM。 3知识蒸馏实现方式迁移学习的一种用训练好的“教师”网络去指导另一个“学生”网络训练。使用方式大模型辅助小模型训练来帮助小模型提升。 4精度紧凑网络实现方式设计新的小模型结构如MobileNet、ShuffleNet。 5低秩分解实现方式将原来大的权重矩阵分解成多个小的矩阵。使用方式现在模型多以1x1为主低秩分解难以压缩目前已不太适用。上述几种模型压缩技术中模型量化对推理部署软硬件的要求较高知识蒸馏一般用来辅助提高精度紧凑网络模型结构相对固定低秩分解不适用目前主流模型结构。而模型裁剪可以对模型结构灵活压缩满足用户对计算量/参数量的需求且压缩后的模型仍可保持较高精度本文将重点介绍模型裁剪方法。 3. 模型裁剪相关技术如前所述模型裁剪分为非结构化裁剪与结构化裁剪。非结构化裁剪是一种细粒度裁剪通过裁剪掉某些不重要的神经元实现优点是裁剪力度较大可将模型压缩几十倍缺点是裁剪后的模型部署需要定制化的软硬件支持部署成本较高。而结构化裁剪是一种粗粒度裁剪一般有channel、filter和shape级别的裁剪这种方法裁剪力度虽然不像非结构化裁剪力度那么大但好处是裁剪后的模型不受软硬件的限制可以灵活部署是近几年模型压缩领域研究者/公司的研究热点。本文我们重点研究结构化裁剪。结构化模型裁剪近几年涌现很多优秀论文压缩成绩不断被刷新压缩技术从手动化结构裁剪进化到基于AutoML的自动化结构化裁剪。以下是几种代表性的方法 1将训练好的模型进行通道剪枝channel pruning[2]。通过迭代两步操作进行第一步是channel selection采用LASSO regression来做第二步是reconstruction基于linear least squares来约束剪枝后输出的feature map尽可能和减枝前的输出feature map相等。 2麻省理工学院韩松团队提出了一种模型压缩方法[3]其核心思想是使用强化学习技术来实现自动化压缩模型。它不是对网络结构的路径搜索而是采用强化学习中的DDPG深度确定性策略梯度法来产生连续空间上的具体压缩比率。 3基于元学习的自动化裁剪方法[4]分三步实现首先生成元网络进行权重预测然后基于元网络利用遗传进化算法进行裁剪模型结构搜索最后筛选出符合要求的裁剪模型结构对候选模型进行训练。 4. 对ResNet50模型的压缩优化我们选择Resnet50进行模型压缩。从MLPerf竞赛开始至2022年而Resnet50始终是图像分类任务的基准模型是计算机视觉领域模型的典型代表。在裁剪方法的选择上我们采用基于AutoML的自动化裁剪方法。该方法的优势是可以灵活定义搜索空间从而灵活裁剪出所需要的任何模型结构。Resnet50的裁剪要求可概括为“快且准”实现方法分以下三步第一与MetaPruning类似首先生成一个“超网络”为后续搜索出的裁剪模型生成权重及预测精度。第二优化搜索空间。自动化模型裁剪方法会基于特定方法对裁剪模型进行搜索搜索方法与搜索效率直接影响到目标模型的质量我们对模型裁剪的搜索空间与搜索方法进行了深度优化。这一步是搜索出符合预期的最优裁剪模型结构的关键也是对Resnet50模型裁剪优化的关键技术点。传统方法在裁剪时一般以模型的计算量/参数量为裁剪指标比如需要将参数量/计算量裁剪掉多少但是我们对裁剪的终极目标之一是在推理部署时降低延迟也就是快且准中的“快”。而单纯降低模型参数量/计算量并不代表一定能带来模型性能提升需要考虑裁剪后模型计算强度与平台计算强度的关系参考roofline model理论。图1 Roofline model示意图图1为roofline model示意图roofline model展示了模型在计算平台的限制下能达到多快的计算速度使用计算强度进行定量分析。当模型计算强度小于平台计算强度红色区域模型处于内存受限状态模型性能计算平台理论性能性能提升计算量减少当模型计算强度大于平台计算强度绿色区域模型处于计算受限状态模型性能约等于计算平台理论性能性能提升接近计算量减少。同时我们研究发现某些情况下单纯减少channel不一定会带来模型性能提升甚至可能会降低模型性能另外裁剪后模型的推理性能因目标运行设备不同存在差异。也就是说单纯裁剪channel不一定会带来性能提升甚至有可能会适得其反裁剪后模型的实际性能与部署的目标设备相关平台计算特性和模型结构特点紧密相关。基于以上研究我们对裁剪模型的搜索空间做了重点优化提出了基于性能感知的模型裁剪优化方法。在对裁剪模型结构进行搜索时除了考虑裁剪后模型的规模如计算量/参数量FLOPS/Params同时考虑不同模型结构channel/shape/layers基于设备平台的真实性能表现也就是裁剪模型在推理部署平台上的的推理延迟时间(latency)。具体做法如下 1由于单纯的计算量/参数量并不能反映模型在计算平台上的真实性能我们首先将不同的模型结构在计算平台进行性能测试决定模型的哪些层的channel需要多裁哪些层的channel需要少裁裁掉哪些层对实际性能提升效果最好。我们对resnet50的模型结构特点进行了研究。图2为resnet50模型[5]结构图该模型结构分为5个conv模块,conv1是一个7x7卷积conv2-conv5都是由bottleneck组成分别包含3/4/6/3个bottleneck。图2 resnet50模型结构以bottleneck为基本测试单位模型推理测试平台选择tensorrt对于每一个bottleneck改变他们的输入输出channel个数测试其在tensorrt上的推理性能表现得到了每一个bottleneck在不同的输入输出channel下的实际性能表现。图3展示了实验中resnet50第三个stage的第6个bottleneck在不同的输出channel个数下在tensorrt上测试的推理性能。图3 resnet50conv3_bottleneck6基于tensorrt的推理延迟由图3结果可以看出该模型结构下测得的推理延迟时间并不会随着channel个数的增加而线性增长推理时间与channel个数呈现出阶梯状关系如当32channel个数≤64时推理性能持平。该实验结果带来的启发是在对模型进行裁剪时我们选择保留阶梯线右侧边缘的channel个数这样既能保证推理性能又能尽可能保证模型本身的channel个数。 2在对裁剪模型进行自动化搜索时除了基于计算量/参数量参考指标提出了以延迟为优化目标的自动化模型裁剪方法。将基于性能感知的约束条件添加到裁剪模型搜索空间在对裁剪模型进行搜索时可同时满足对计算量/参数量/延迟的多重要求尽可能保证裁剪后的模型在推理部署阶段最大限度地降低延迟。在裁剪模型搜索阶段我们的优化代码第一阶段首先会指定裁剪模型的计算量/参数量通过计算量/参数量的设定去搜索符合条件的裁剪模型。在裁剪模型的搜索空间中每一层channel个数的设定会参考1中的测试结果。第二阶段在搜索出的候选裁剪模型中计算每个候选裁剪模型在目标推理平台上的推理耗时筛选出推理耗时最小的模型为我们的目标裁剪模型从而保证裁剪模型是在计算量/参数量/延迟三个层面搜索出的最优结果。第三步裁剪后模型精度恢复。对于模型裁剪大家最关注的问题是裁剪后的模型是否能恢复到与裁剪前相近的精度也就是快且准中的“准”。一般的模型裁剪方法是将模型裁剪之后进行finetune或者一边裁剪一边训练而通过我们的实验发现通过裁剪算法得到的压缩模型直接随机初始化训练Training from scratch得到的模型精度反而比基于原模型权重finetune效果更好Training from scratch可以更多去探索稀疏化模型的表达空间所以我们对于裁剪后的模型采用Training from scratch的训练方式。同时为了尽可能恢复裁剪后模型的精度我们结合蒸馏训练用大模型去指导裁剪后的小模型训练在精度保持上取得了非常好的效果。表1是我们裁剪并训练出的一些模型将Resnet50计算量裁剪到原来的50%、37.5%时仍然可以保持76%以上的TOP1精度表1 模型规模与对应精度模型 Top-1 FLOPS 参数量 Raw-resnet50 76.4% 4G 255万 Pruned-model1 76.3% 2G 167万 Pruned-model2 76.1% 1.5G 165万基于浪潮NF5488A5平台未经过压缩优化的Resnet50推理性能如表2 表2 压缩前的Resnet50基于NF5488A5的性能模型平台性能 Top1精度 ResNet50 浪潮NF5488A5(1*A100) 37694.5 images/s 76.1% ResNet50 浪潮NF5488A5(8*A100) 303264 images/s 76.1% 而经过压缩优化后Resnet50在开放赛道的性能如表3 表3 压缩后的Resnet50基于NF5488A5的性能模型平台性能 Top1精度 ResNet50 浪潮NF5488A5(1*A100) 68994 images/s 75.856% ResNet50 浪潮NF5488A5(8*A100) 549782 images/s 75.856% 综上在MLPerf推理V0.7竞赛开放赛道中基于压缩优化算法我们将ResNet50计算量压缩到原来的37.5%压缩优化后的ResNet50模型单GPU推理速度相比压缩优化前提升83%8GPU推理速度相比压缩优化前提升81%。基于浪潮NF5488A5服务器单卡每秒可处理68994张图片8卡每秒可以处理549782张图片这个成绩在当时参赛结果中排名第一。参考文献 [1] Denil, M. , et al. Predicting Parameters in Deep Learning. University of British Columbia (2013). [2] He, Y. , X. Zhang , and J. Sun . Channel Pruning for Accelerating Very Deep Neural Networks. (2017). [3] He, Y. , et al. AMC: AutoML for Model Compression and Acceleration on Mobile Devices. (2018). [4] Liu, Z. , et al. MetaPruning: Meta Learning for Automatic Neural Network Channel Pruning. (2019). [5] He, Kaiming, et al. Deep residual learning for image recognition. Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

查看全文

http://www.pierceye.com/news/173013/