当前位置：首页 > news >正文

怎么做根优酷差不多的网站知识付费网站搭建教程

news 2025/11/17 12:55:48

怎么做根优酷差不多的网站,知识付费网站搭建教程,网页游戏梦幻西游,商场装修设计采用优化卷积神经网络的红外目标识别系统人工智能技术与咨询前天本文来自《光学精密工程》#xff0c;作者刘可佳等关注微信公众号#xff1a;人工智能技术与咨询。了解更多咨询#xff01; 摘要针对视频数据利用低效和光测设备目标识别能力较弱的问题#xff0c…采用优化卷积神经网络的红外目标识别系统人工智能技术与咨询前天本文来自《光学精密工程》作者刘可佳等关注微信公众号人工智能技术与咨询。了解更多咨询摘要针对视频数据利用低效和光测设备目标识别能力较弱的问题提出一种使用海量视频数据建立数据库进而构建红外目标识别系统的方法。首先设计快速红外目标检测算法提取目标并分类建立数据库然后结合特定任务建立一组较匹配且结构不同的卷积神经网络并提出基于测试准确度均值统计分析和参数规模的选型策略选出泛化能力较好且结构简单的卷积神经网络以及适当的训练轮数最后加载优选模型及其参数作为分类器与检测器结合实现红外目标特征事件实时检测分类。仿真结果表明目标分类准确率均值可达95%以上速率约为50 pixel/s。卷积神经网络结构的设计和选型策略有效构建的系统可以满足红外目标识别的精度和实时性要求。 1 引　言光电探测系统是空间目标探测和预警的重要手段之一被广泛应用于军事领域。光电设备可以部署于陆基、海基、空基或天基平台获取目标在不同空域和时段的视频图像数据为决策者提供大量信息。陆基光电探测系统常采用红外波段用于飞行目标的探测与跟踪具有探测距离较远、视场和成像较小等特点可以观测和记录目标飞行过程中的特征事件或动作一般成像为黑底白像以视频或图像帧方式记录。目前视频数据多以磁盘存储事后多以人工加软件方式判读数据利用效率低长期积累的海量视频数据信息未被充分挖掘。近年来深度学习技术在图像分类研究中取得突破性进展1利用海量视频数据提高设备探测和目标识别性能的研究进入了一个崭新的阶段。卷积神经网络Convolution Neural NetworkCNN2-3算法已逐渐代替传统人工模型算法成为处理图像检测与识别问题的主流算法为复杂战场环境下的军事目标自动检测、识别与分析提供了新的技术途径。视频红外目标在其飞行周期内外观变化较大、成像大小可以从占据大部分屏幕到点目标。基于深度卷积神经网络的视频目标检测与识别方法可以按照是否利用时序信息分为两类一类是基于单帧图像的算法仅利用当前帧图像的空间信息完成目标检测和分类识别如经典的R-CNN系列4-5、SSD系列6-7和YOLO系列8-10算法等这类算法研究相对较为成熟且已有大范围的落地应用主要针对多类别目标分类的通用场景对中等大小目标效果很好模型结构较为复杂尽管近年提出许多轻量化的改进模型11-15但是这些算法对目标变化较大的情形尤其是特定任务中视场中目标外观很大或很小时的检测识别能力不足。另一类是基于多帧图像的视频行为识别16-17算法这类算法同时利用帧序列蕴含的空间和时间信息进行目标分类识别如C3D系列18-19、双流网络系列20-21、CNN加LSTM系列22算法设计同时提取外观和运动特征的模型较为复杂、对训练数据集的标注要求较高目前在红外目标识别领域的应用处于起步探索阶段。国内应用深度学习技术研究和解决军事图像分类、高光谱图像分类、海战场图像目标识别、复杂背景下坦克装甲目标检测、飞行器图像识别等问题23-27并取得了较好的结果但在利用海量视频数据建立训练数据集、针对特定任务的CNN结构选择与优化策略等重要问题上鲜有提及。针对这些问题结合陆基红外探测系统成像特点设计了一种基于优化卷积神经网络、快速生成红外目标检测识别系统的构建方法让实时数据“开口说话”28。 2 系统模型红外目标识别系统的设计思路是先设计快速红外目标检测器从视频中提取并标注目标区域Region of InterestingROI建立数据集并存储到数据库然后利用这些标注数据训练卷积神经网络再设计基于测试准确度和模型复杂度的模型选择策略获取红外目标分类识别器达到实时识别目标特征事件的目的。该框架可以高效、灵活利用源视频数据快速获取目标识别能力。图1是系统框图分为建数据库、训练选型和加载检测三部分分别用绿虚线、蓝实线和红虚线表示其流程实线方框表示功能模块虚线方框表示需要一定程度的人工交互虚线圆角框表示产生的过程文件圆柱体表示数据库彩图见期刊电子版。图1红外视频处理与红外目标识别系统框图 Fig.1Block diagram of infrared video processing and infrared target recognition system 下载: 原图 | 高精图 | 低精图建数据库包括设计检测器并从历史视频帧中提取目标ROI在人工交互模式下将目标的飞行过程划分为若干特征事件子类标明ROI的子类编号例如子类编号1至3表示起飞、分离、抛整流罩将ROI及其对应的子类标签作为初始数据集以统一文件格式存储到数据库。训练选型是先对初始数据集进行数据增强得到增强数据集再根据子类数目、样本集规模和经验知识设计一组与特定任务较匹配的CNN模型通过选型策略选出较优的模型及其参数。加载检测是加载最优模型及其参数得到分类器用检测器从实时红外视频帧中逐帧提取ROI送入分类器获得检测结果通过人工交互检验后可提供实战信息或充实数据库。下面详细叙述检测器、建数据库、训练选型和分类器等主要模块的实现过程。 2.1　检测器飞行目标温度一般高于背景温度红外视频目标成像为白色背景为黑色因此可以采用形心法和阈值分割方法构造检测器快速检测和提取目标ROI获取目标ROI图像集合。图2是检测器框图帧边缘处理模块将画面字幕区域填充为背景灰度值中值滤波用于处理坏点和椒盐噪声二值化掩膜可依据常量门限或自适应门限计算目标掩膜再根据掩膜计算目标群外接矩形。二值化固定阈值可根据处理的红外目标灰度值在150180之间选择基于背景分离的自适应门限功能作为可选项。为匹配CNN网络提取ROI均为正方形边长取ROI外接矩形长和宽较大者。图2检测器框图 Fig.2Block diagram of detector 下载: 原图 | 高精图 | 低精图 2.2　数据集的建立与存储建立数据集时先针对特定分类任务人工划分特征事件段落将ROI进行子类标注并以固定格式储存再进行增强处理得到增强数据集用于训练CNN网络。 2.2.1　数据分类与标注红外探测器视场一般约为1°目标飞行过程中有姿态变化、分离、释放诱饵等动作距离较近时成像多为具有某种特征的灰白色亮斑形态缓变或突变距离较远时多成像为点目标。固定型号目标成像一般不超过20种形态根据成像形态差异和变化规律将飞行过程划分为若干特征事件子类目标具有多批次飞行视频对应多组ROI样本集可分别作为训练和测试数据集。ROI子类标注需要人工交互确定子类名称和剔除过渡样本以使子类间具有更好的区分度。 2.2.2　数据增强如果视频有限、训练数据库数量少、形式单一或子类样本量不均衡时可采用数据增强技术通过随机旋转、翻转、缩放、剪切、亮度调整、对比度调整及其组合方法处理初始数据集中的ROI改善数据集。如划分6个子类建立训练和测试集初始样本数为1 920增强扩充为12 800选择同型号目标另一批次红外视频建立测试数据集因某些目标动作时间短、帧数少某些状态持续时间长、变化慢只选其子类中具有代表性的195帧并覆盖所有子类的ROI建立测试集。 2.2.3　数据存储实际问题中的数据格式和属性并不统一TensorFlow29提供了一种统一的TFRecord格式存储数据可以统一不同的原始数据格式并更加有效的管理不同的属性可扩展性也更好在存取时间和空间上效率更高。比如增强数据集包括12 800幅灰度图大小为27 319 986 Byte占用空间57 958 400 Byte对应的带有标签信息的TFRecord文件大小为14 400 000 Byte占用空间14 401 536 Byte后者占用空间更少训练模型输入效率更高。 2.3　建立并优选卷积神经网络模型 CNN通常包含一个标准的叠加卷积层结构可选择附加对比标准化和最大池化功能后接一个或多个全连接层30结构复杂度应当与需要区分的类别数匹配有助于减少欠拟合或过拟合因此应当设计CNN模型结构选择策略即首先根据子类数目和数据集规模设计一组较匹配的CNN模型覆盖不同卷积层数和卷积核深度通过多次训练取得多组测试准确度Test AccuracyTA利用测试准确度的统计分析结果和模型参数规模选出泛化能力较好且结构较简单的CNN模型。根据MNISTCIFAR10数据集经验分类数较少时如10个左右CNN卷积层2到4层即可达到满意效果这里参照较为简单的LeNet-531-32网络结构。将CNN模型命名为CnnetNX其中N表示卷积层数可选1234k5X表示首层卷积核深度可选b4c8d16e32f64之后各层卷积核深度以2为底指数级增加。例如Cnnnet3d具有3个卷积层、首层卷积核深度为16。图3表示3种CNN结构从Cnnet2e到Cnnet4e网络深度逐渐加深其中卷积层包含了线性整流函数ReLURectified Linear Unit。图3CNN结构框图 Fig.3Block diagram of CNN Structure 下载: 原图 | 高精图 | 低精图针对自建数据库规模小、类别少的特点设计21种CNN结构如表1所示。表1给出Cnnet5e的核参数和特征图尺寸卷积核的节点矩阵尺寸即宽、高、通道数分别用whc表示卷积核的深度为d池化层的滤波核大小均为2×2sn表示卷积步进值为n输出特征图的宽、高、通道数用WHC表示。Xd16c8b4的数据标于括号中“√”表示具有该层结构“Flat”表示最后一层池化层输出的特征图拉直向量维度“FullC”表示全连接层数值等于输入图的拉直向量维数。cnnet1f未标出其对应的卷积核深度为64拉直向量维度16 384。表2是21种CNN的参数数量卷积层越多全连接层参数占比越低总参数越少卷积核深度越深总参数越多。表121种具有不同卷积层和卷积核深度的CNN结构参数 Tab.121 kinds of CNN structure parameter with different convolution layer and convolution kernel depth cnnet5e(d,c,b)4e(d,c,b)3e(d,c,b)2e(d,c,b)1e(d,c,b)层名核参数 (w×h×c/d/stride) 特征图(W×H×C) (输入图32×32×1) Conv15×5×1/32(16,8,4)/s132×32×32(16,8,4)√√√√MaxP12×2/s216×16×32(16,8,4)√√√√Conv23×3×32/64(32,16,8)/s116×16×64(32,16,8)√√√MaxP22×2/s28×8×64(32,16,8)√√√Conv33×3×64/128(64,32,16)/s18×8×128(64,32,16)√√MaxP32×2/s24×4×128(64,32,16)√√Conv43×3×128/256(128,64,32)/s14×4×256(128,64,32)√MaxP42×2/s22×2×256(128,64,32)√Conv53×3×256/512(256,128,64)/s12×2×512(256,128,64)MaxP52×2/s21×1×512(256,128,64)Flat512(256,128,64) 1 024 (512, 256, 128) 2 048 (1 024, 512, 256) 4 096 (2 048, 1 024, 512) 8 192 (4096, 2 048, 1 024) FullC11 0241 0241 0241 0241 024FullC266666 下载: 导出CSV 表221种CNN网络参数数量括号中为卷积层参数/全连接层参数个数 Tab.2Number of 21 CNN network parameters(In parentheses, is the number of convolution layer /full connection layer parameters) CNN12345 b(4) c(8) d(16) e(32) f(64) 1 054 824 (104/1 054 720) 2 103 504 (208/2 103 296) 4 200 864 (416/4 200 448) 8 395 584 (832/8 394 752) 16 785 024 (1 664/16 783 360) 530 832 (400/530 432) 1 056 096 (1 376/1 054 720) 2 108 352 (5 056/2 103 296) 4 219 776 (19 328/4 200 448) 269 856 (1 568/268 288) 536 448 (6 016/530 432) 1 078 272 (23 552/1 054 720) 2 196 480 (93 184/2 103 296) 143 424 (6 208/137 216) 292 800 (24 512/268 288) 627 840 (97 408/530 432) 1 443 072 (388 352/1 054 720) 96 384 (24 704/71 680) 235 584 (98 368/137 216) 660 864 (392 576/268 288) 2 098 944 (1 568 512/530 432) 下载: 导出CSV 2.4　分类器使用增强数据集按预设超参数和优化策略训练优选的模型训练结束后将模型结构、学习到的参数和类别标签以文件形式保存构造分类器时加载模型、参数和子类标签文件获得分类器函数该函数输入图片输出图片标签编号。使用检测器检测实时视频帧并提取目标ROI逐帧输入分类器进行判断输出该目标所属的子类编号。 3 实验结果与分析实验分图像增强、模型训练选型和分类性能分析三部分。仿真计算机配置为Intel®Core™ i7-6700HQ CPU 2.60 GHz仿真软件采用Anaconda3-5.2.0Python-3.5.2。CNN网络搭建与训练、目标检测实现基于TensorFlow框架和python-OpenCV库。 3.1　图像增强及其效果仿真图4用网络图片展示增强效果末行中间是原图自上而下为亮度、对比度、随机剪切和旋转四种处理结果组合处理样本更加丰富。图4亮度、对比度、随机剪切和旋转处理 Fig.4Brightness, contrast, random cut and rotation processing 下载: 原图 | 高精图 | 低精图如图5所示用增强前后的数据集分别训练cnnet3e模型各5次“src”和“aug”分别表示源数据集和增强数据集训练结果测试准确度均值Mean Test AccuracyMTA表明数据增强技术在同等条件下使MTA提高约10%且标准差更小帮助模型学习到更好更稳定的泛化能力。图5数据增强前后训练cnnet3e网络5次TA及MTA曲线 Fig.5Training cnnet3e network TA and MTA for 5 times before and after data enhancement 下载: 原图 | 高精图 | 低精图 3.2　训练模型与选型策略实验影响CNN模型性能的主要有网络结构、超参数以及损失函数和优化策略等这里主要研究CNN结构尤其是网络深度变化对训练结果的影响进而设计选型策略。实验选择的超参数有学习速率0.000 1、最小批处理数量50、随机失活比例0.5、训练轮数10 000轮损失函数为交叉熵优化采用自适应矩估计方法adaptive moment estimationAdam29。由于对批处理数据进行了随机扰乱因此学习参数和测试准确度等训练结果具有随机性而测试准确度是反映模型泛化能力的重要指标为减少随机性干扰使用增强前后的数据集分别对21种CNN进行5次训练每次训练10 000步每200步记录一次测试准确度结果分别计算各CNN的5次训练结果的MTA如图6~图7所示。从MTA变化趋势看前者收敛较快多数曲线呈现先升后降趋势后者收敛较慢大部分曲线由升转稳且幅度有较大提高原因是前者样本少收敛快后期出现过拟合而后者样本数量和多样性都有改善训练轮数也比较合适。可见MTA即能反映泛化能力又能反映拟合状态是选择模型和训练轮数的重要参考。图621种CNN 5次MTA曲线(未增强数据) Fig.6MTA of 21 CNN for 5 times with unenhanced data 下载: 原图 | 高精图 | 低精图图721种CNN5次MTA曲线(增强数据) Fig.7MTA of 21 CNN for 5 times with enhanced data 下载: 原图 | 高精图 | 低精图图8能更清晰地展示这种趋势按顺序取每5个相邻的MTA为一段求均值得到分段测试准确度均值Partitioned Mean Test AccuracyPMTA幅度更稳定。图821种CNN 5次PMTA曲线 Fig.8PMTA of 21 CNN for 5 times 下载: 原图 | 高精图 | 低精图对比图8的a和b前者5b1b2e较高2d3b2b较低后者1e2b2e较高4e5c5d较低。这表明同等条件下增强样本会影响训练收敛过程和结果前后两个2e幅度都较高但曲线形态明显不同前者先升后降后者先升后稳这说明同等条件下还应按数据集规模选择适当的训练轮数防止欠拟合和过拟合。基于上述分析将各CNN中MTA类指标和参数规模绘制成热度图如图9所示。优选模型主要依据PMTA和MTA的最大值以及参数总数“total num”前者反映模型泛化能力后者表示模型复杂度其他指标FMTA表示MTA前5个最大值的均值“fclayer num”和“convlayer num”表示全连接层和卷积层参数量作参考。首先排除参数很多1 000 000且MTA类指标并未显著提升者1b~1f2c~2e3d3e4e5e和参数虽少但是MTA类指标明显较低者3b4c4d5c5d余下2b3c4b和5b箭头所示。其次2b5b的参数规模分别略低于3c4b但MTA更高可淘汰后者。最后余下的网络参数规模都不大因此应以MTA为主若MTA相等根据奥卡姆剃刀原则选参数少者。2b与5b模型相比各有优势前者以5倍左右的参数量将MTA提高了近1%在参数总数可接受的情况下可提供更好的模型泛化能力。图9基于MTA类指标和参数规模的选型策略参数数量单位万 Fig.9Selection strategy based on MTA class index and parameter scale (parameter unit: ten thousand) 下载: 原图 | 高精图 | 低精图综上所述首先设计一组与特定任务较匹配的CNN通过多次训练获得MTA类指标绘制MTA类指标和参数规模热度图再用排除法、对比法缩小选择范围最后按照简单有效原则可选出潜在的模型复杂度较低且泛化能力较高的CNN用于构造分类器。 3.3　图像检测实验 TensorFlow提供多种方法保存和加载部署模型33。加载Cnnet2b结构、参数和标签文件这里构造分类器函数用于仿真输入为一幅归一化为32×32大小的ROI灰度图输出为该图子类编号。仿真时先用检测器实时提取视频帧中的目标ROI然后传入分类器函数判断其子类编号这就构成一个快速目标识别系统。图10上中下子图左侧是对Cnnet2b进行三次训练的训练准确度Train Accuracy和测试准确度训练准确度在后期基本达到100%测试准确度分别达98.46%94.35%和95.89%右侧是对应模型的预测结果与真实标签比较可见模型训练结果具有随机性但是在预期的范围。图10Cnnet2b模型三次训练和测试准确度及其分类结果 Fig.10Three times training and testing accuracy of cnnet2b model and its classification results 下载: 原图 | 高精图 | 低精图从预测结果看错误帧分别为第397帧其中分别有第265帧的错误发生在状态变换附近约占68%因此在选择训练测试样本时通过减少过渡状态的样本提高类间区分度可进一步提高预测准确度。在采用固定灰度阈值时视频检测速率可达1 000 FPS增加中值滤波和自适应灰度阈值功能时约为100 FPS分类器运算时间约为100 FPS检测分类总时间约为50 FPS达到实时要求。 4 结　论为快速利用现有数据提升设备能力基于海量红外视频数据和卷积神经网络分建立数据库、增强数据、选择CNN训练模型和设计检测器、分类器等若干步骤设计了一种构建实时红外目标识别系统的方法。重点阐述了如何根据测试准确度均值及其分类统计结果、参数规模等要素选择适合特定任务的CNN卷积层层数和卷积核深度在模型复杂度较低时选出泛化能力较好的模型。实验结果表明特征事件分类准确度可达95%帧率约为50 FPS选择CNN结构的策略合理有效建立的系统模型可达到红外目标识别精度和实时性要求。关注微信公众号人工智能技术与咨询。了解更多咨询

查看全文

http://www.pierceye.com/news/606873/