当前位置：首页 > news >正文

网站建设必要性运营策划怎么做

news 2025/12/20 16:12:41

网站建设必要性,运营策划怎么做,学校登陆网站制作,wordpress环境搭建来源#xff1a;专知基于深度学习的表情动作单元识别是计算机视觉与情感计算领域的热点课题.每个动作单元描述了一种人脸局部表情动作#xff0c;其组合可定量地表示任意表情.当前动作单元识别主要面临标签稀缺、特征难捕捉和标签不均衡3个挑战因素. 基于此#xff0c;本文将…来源专知基于深度学习的表情动作单元识别是计算机视觉与情感计算领域的热点课题.每个动作单元描述了一种人脸局部表情动作其组合可定量地表示任意表情.当前动作单元识别主要面临标签稀缺、特征难捕捉和标签不均衡3个挑战因素. 基于此本文将已有的研究分为基于迁移学习、基于区域学习和基于关联学习的方法对各类代表性方法进行评述和总结. 最后本文对不同方法进行了比较和分析并在此基础上探讨了未来动作单元识别的研究方向.https://www.ejournal.org.cn/article/2022/0372-2112/0372-2112-2022-50-8-2003.shtml1 引言近年来“以人为本服务于人”得到人工智能研究越来越广泛的关注面部表情是人类情感最自然和直接的表现方式对其的分析和识别1~3是计算机视觉与情感计算领域的热门研究方向在医疗健康4、公共安全5等领域具有广泛的应用前景.由于人们在日常生活中较少表现大幅度的面部动作更多是通过局部细微表情来表达情感如悲伤时眉毛下垂、惊讶时张开嘴因此许多工作关注对局部表情动作而不仅仅是整体表情的识别.人脸动作编码系统Facial Action Coding SystemFACS67定义了几十个表情动作单元Action UnitAU是目前描述人脸局部细微表情最全面和客观的系统之一.如图1所示快乐、悲伤、惊讶等整体表情被定量地解析为多个AU的组合每个AU是一个基本面部动作与一或多个人脸局部肌肉动作有关.在一个人脸表情中可能只出现一个AU也可能同时出现多个AU.虽然FACS只定义了几十个AU但是每个AU具有从低到高的多个强度级别因而AU的组合可表示7 000种以上真实存在的表情8满足了精细刻画表情的需要.图1 整体表情与AU的关系示例深度学习在计算机视觉的各个领域都获得了巨大成功近些年越来越多的人脸表情识别工作采用深度神经网络基于其强大的特征提取能力显著提升了表情识别的精度.然而早期的人脸表情识别综述9~11主要介绍传统的非深度学习方法由于这类方法采用人工设计的特征限制了表情识别的性能.近年来Corneanu等人12总结了基于RGB图像、3D、热成像或多模态数据的人脸表情识别工作Li等人13将讨论范围限定在基于深度学习的方法.然而上述综述仅关注识别整体表情的工作忽视了表情AU识别.另外贲晛烨等人14和徐峰等人15对微表情识别进行了综述但也没有关注AU识别.Martinez等人16和Zhi等人17虽然详细回顾了AU识别工作但其中大部分仍是基于传统的非深度学习方法.鉴于此本文主要讨论基于深度学习的表情AU识别工作对这一领域的代表性方法进行分类、评述和总结弥补现有人脸表情识别综述的不足.本文接下来首先介绍AU识别的问题定义、挑战和评测数据集然后从迁移学习、区域学习和关联学习3个角度对已有工作进行概述之后将一些主流AU识别方法的性能进行了比较最后探讨了AU识别未来的研究趋势.2 问题定义、挑战和评测数据集2.1 AU的定义人脸表情出现时一些局部区域会发生肌肉动作.人脸动作编码系统FACS67基于人脸解剖学所划分的局部肌肉定义了一个基本面部动作即动作单元AU的集合.每个AU涉及一个或多个局部肌肉具有012345这6个强度级别其中0表示不出现而5则表示出现的强度最大因而可以客观且定量地描述人脸精细表情.图2展示了常见的27个AU的示例图片及定义其中9个AU出现在上半脸18个AU出现在下半脸.可以发现每个AU都是一种局部的面部动作刻画了细微表情.形式化地任一人脸表情可以由这些AU出现的强度所构成的向量来表示其中未出现的AU的强度即为0.图2 常见的27个AU的示例图片及定义[6,18]表1列出了每类整体表情中可能出现的AU16这些AU同时出现或部分同时出现于整体表情例如快乐表情可以由AU 6AU 12和AU 25的组合来表示悲伤表情可以由AU 1AU 4AU 6和AU 17的组合来表示.值得注意的是人们在意识到自身表露出一种可能不合适的表情时经常会试图抑制它来隐藏真实的情绪而只要试图掩盖原来的表情其面部便会自发地出现微表情Micro-Expression19.微表情的持续时间很短一般的界定标准为持续时间不超过500 ms20这是其区别于宏表情Macro-Expression的主要特征21.微表情也可以用AU的组合进行描述表2具体定义了每类微表情对应的AU组合22其中IIIIIIIVV和VI类分别与快乐、惊讶、愤怒、厌恶、悲伤和恐惧相关VII类与蔑视等其他微表情相关.例如微表情I类可以由AU 6AU 7和AU 12的组合或单个AU 6来表示.因此研究AU识别对微表情识别同样具有重要意义.经过观察AU 的组合可以形成 7 000 多种真实存在的表情8 . 在某一人脸表情中可能单独出现一个 AU也可能同时出现多个 AU. 当多个 AU同时出现时若它们是可加性的Additive则 AU 的组合出现并不改变各 AU 的外观若它们是不可加性的NonAdditive即它们的肌肉动作存在交叠区域会融合成新的肌肉动作则各 AU 的外观会被改变 . 此外一些 AU 组合如 AU 1 和 AU 4 在悲伤和恐惧表情中都会出现比其他组合出现的频率更高. 另外某些AU之间是相互排斥的如 AU 1 和 AU 7两者不会同时出现在任一表情中若一个AU出现则另一个AU不会出现。2. 2 基于深度学习的AU识别的定义基于深度学习的 AU 识别主要包含 3 个环节即人脸检测、人脸对齐和 AU 识别如图 3 所示 . 人脸检测指在输入图像上检测人脸的位置人脸对齐指基于人脸配准所定位的面部特征点对人脸进行变换使得变换后人脸与参照人脸一般为平均脸的对应特征点位置相同或相近AU 识别是基于深度神经网络实现无须额外提取人工设计的特征其从每张对齐后的人脸图像所提取的特征都对应于相同的面部语义位置这有利于提升网络的特征学习以及进一步的分类或回归能力 .2.3 基于深度学习的AU识别的挑战AU作为出现在面部局部区域的细微表情动作较难被准确捕捉且人工地对其标注也较困难因此基于深度学习的AU识别主要面临如下3个挑战因素.1标签稀缺性AU需要由经过培训的专家来标注且标注过程较耗时因而人工标注的成本很高6使得目前大多数被标注的数据集规模较小、样本多样性较低.由于深度学习方法通常需要大量的训练数据因此标签稀缺性是限制模型精度的重要因素.2特征难捕捉性AU是非刚性的其外观随人和表情的变化而变化且每个AU的形状不规则、不同AU的大小一般不相同.而且人脸表情中时常会同时出现2个以上具有交叠区域的AU存在不可加性例如AU 1和AU 4在图1的悲伤表情中同时出现它们会改变各自原来的外观融合成新的面部肌肉动作.这些都导致各AU所关联的局部表情细节难以被准确地捕捉.3标签不均衡性在人们经常表现的表情中某些AU出现的频率比其他AU更高且每一AU出现的频率时常低于不出现的频率即AU的标签具有不均衡性而当前AU数据集规模小、多样性低的情况加剧了这种不均衡性.这些导致了AU识别模型对多个AU同时预测时容易偏向于提升出现频率较高AU的精度而其他AU的精度则受到抑制且容易偏向于将AU预测为不出现.尽管深度学习显著提升了AU识别的性能上述挑战仍是导致AU识别精度较低、不同AU精度差异较大的主要因素如何克服这样的挑战是当前AU识别研究的热门方向.2.4 AU数据集自FACS67被提出以来学术界克服AU数据采集、标注的困难发布了多个AU数据集促进了AU识别技术的发展.早期的数据集如CK25和MMI18是在受控环境下采集的具有良好光照和简单背景的正面或近似正面的人脸图片受试者被要求人为地显露出指定的面部表情.最近十年研究人员更多地关注受试者被诱发而自发产生的表情代表性数据集包括受控环境下采集的BP4D26和DISFA27等.近年来学术界发布了几个非受控场景下采集的数据集如EmotioNet28和Aff-Wild2 AU Set29其包含的图片来自互联网等野外Wild场景在光照、遮挡、姿态等方面变化多样.本文接下来对一些流行的AU数据集进行介绍由于数据集的采集环境受控、非受控、表情激发方式人为、自发、样本多样性人脸身份数、图片或视频数、数据形式2D3D都会影响模型的训练效果表3对数据集的这些属性进行了总结.此外图4展示了这些数据集的示例图片.3 基于深度学习的AU识别方法进展针对标签稀缺性可以利用迁移学习将有用的知识迁移到当前任务针对特征难捕捉性可以从准确捕捉AU的关联区域从而提取AU特征来切入针对标签不均衡性可以考虑利用AU间的关联对不均衡的AU进行平衡.本文接下来分别予以介绍.3.1 基于迁移学习的方法迁移学习的目标是弥补有人工标签的训练样本的不足将相关联的样本、标签、模型或先验知识等迁移过来提升当前任务的模型性能.3.1.1 基于已有模型的迁移学习最常见的迁移学习方法是在当前数据集上微调其他图像数据集上预训练的模型由于不同类型的图像时常具有相似的颜色分布和背景环境等属性预训练模型所携带的知识也有利于当前模型的训练.Zhou等人40基于一个在ImageNet41上预训练的VGG1642网络实现AU强度估计和头部姿态估计.Ji等人43在整体表情识别和人脸识别这2个与AU相关联任务的数据集上分别预训练ResNet-34网络44接着在AU数据集上分别微调2个网络并将2个网络预测的AU出现概率取平均作为最终的预测值.预训练的数据集与当前数据集之间存在域Domain差异且微调过程可能会丢失一些有用信息因而限制了微调预训练模型的有效性.另一个基于已有模型的思路是生成伪标签即利用训练好的AU识别模型对图片自动地标注这实质上是利用了AU识别模型中存储的训练数据的知识.Benitez-Quiroz等人28发布了一个从互联网上抓取的非受控场景人脸图片数据集EmotioNet其中优化集具有准确的人工标签而训练集只有受控场景图片上训练的模型所标注的伪标签.考虑到自动标注模型的训练数据与被标注图片之间存在域差异自动标注的伪标签并不准确.为改进EmotioNet的伪标签Werner等人45采用一个自训练方法以多任务的形式同时在优化集和训练集上训练深度卷积神经网络Deep Convolutional Neural NetworkDCNN其中优化集对应的分类器分支作为最终分类器然后利用训练好的模型对训练集图片重新标注伪标签再重新训练网络重复这一过程直至性能已收敛或已满足精度要求.然而这一自训练方法依赖优化集的人工标签.3.1.2 基于已有标签的迁移学习由于人工标注AU的成本高昂很多情况下数据集中只有部分样本拥有完整的AU标签而其余样本没有AU标签或只有一部分AU的标签.这里极端的情况是所有样本都没有AU标签而只有粗略的标签如整体表情标签是可用的由于其对表情的描述没有AU精细因而标注成本很低.由表1不难看出AU与整体表情之间存在条件依赖关系.Peng等人46从多个AU数据集中统计出给定整体表情下某一AU出现的条件概率并结合先验的AU间关系从表情标签生成AU的伪标签.进一步地Peng等人47基于全部样本的表情标签和部分样本的AU标签提出一个对偶半监督的生成对抗网络Generative Adversarial NetworkGAN48联合地学习AU分类器和人脸图片生成器.由于任务的对偶性AU分类器的输入输出联合分布和人脸生成器应该是一致的该方法通过对抗学习迫使输入输出联合分布收敛到AU-表情标注数据的真实分布.Zhang等人49将表情独立的和表情依赖的AU概率作为约束融入目标函数促进AU分类器的训练.然而将固定的先验知识应用于所有样本忽视了不同样本间AU动态变化的特性.另一些方法在具有AU标签的样本基础上引入大量无标签的样本.Wu等人50基于深度神经网络学习人脸特征并利用受限玻尔兹曼机Restricted Boltzmann MachineRBM从部分样本的完整AU标签中学习标签分布然后通过最大化AU映射函数相对于所有无标签数据的标签分布的似然对数同时最小化有标签数据的AU预测值和真实值之间的误差来训练AU分类器.然而从有限样本学习的标签分布可能并不适用于其他样本.Zhang等人51利用4种先验的AU约束来额外地监督训练过程越临近帧的特征越相似、一段AU动作中强度随帧非递减、面部对称性、相对于中性表情外观的差异性.该方法在训练时要求图像序列中某一AU在一段动作过程中峰值和谷值所在帧具有该AU的标签降低了适用性.此外相关联任务的已有标签也可以被利用来促进AU识别.Shao等人52采取多任务学习基于CNN联合地实现人脸AU识别和人脸配准利用任务间的关联性使得彼此相互促进且配准分支学习的特征被传入AU识别任务有利于提升AU识别精度.Jyoti等人53将整体表情识别网络所提取的特征传入AU识别网络促进AU识别.Tu等人54采用底部层共享的人脸识别网络和AU识别网络其中人脸识别网络学习身份特征然后AU识别网络所提取的特征在减去身份特征后进一步回归AU预测值.这类方法的效果很大程度上依赖任务间的关联性强弱以及所设计多任务结构的有效性.3.1.3 基于域映射的迁移学习域映射指从一个域映射到另一个域其中域包括图像、特征、标签等.近年来一些工作通过域适应Domain Adaptation来提取源域知识使其适应目标域从而促进目标域任务的学习.一个常见做法是将目标图片的表情编辑为源图片的表情从而将源图片的AU标签迁移到新生成的目标图片上实现数据扩增.Liu等人55以源AU标签为条件基于条件GAN56生成源表情参数再与目标图片的其他人脸属性参数组合利用3D可变模型3D Morphable Model3DMM57生成具有源表情和目标图片纹理的新图片.Wang等人58在不依赖3DMM的情况下同时训练GAN和AU分类器合成具有源图片AU属性且保留目标纹理的新图片.然而这2个工作针对的源图片和目标图片都仅来自受控场景.除了域适应外域映射的另一个应用是自监督学习其从数据本身的结构推断出监督信号而不需要AU标签.Wiles等人59提出一个人脸属性网络输入为来自同一视频的目标帧和源帧首先编码器学习目标帧和源帧的人脸属性特征两者被串联起来输入到解码器中生成具有源帧表情和目标帧姿态的新图像其中解码器对生成图像上每一像素与源帧像素的位置对应关系进行预测同时约束生成图像与目标帧相似这里人脸属性特征包含了表情信息因而可以用于AU识别.考虑到AU是面部肌肉动作Li等人60将视频中2张不同帧之间的人脸变化视为动作并以此为自监督信号来学习特征具体采用一个双循环自编码器将AU相关的动作和头部姿态相关的动作解耦出来从而得到AU相关的特征.然而这些方法要求训练时输入的一对图像来自同一视频且具有相同的人脸身份限制了其适用性.3.2 基于区域学习的方法AU为人脸局部肌肉动作因而提取其特征需要准确定位关联区域每个AU的关联区域包括其所在部位以及存在一定关联的其他部位.3.2.1 特征点辅助的区域学习FACS基于客观的人脸解剖学来定义AU每个AU的中心与人脸特征点之间有先验的位置关系图5展示了一些常见AU的位置定义规则6152因此可以通过特征点来准确确定AU的中心位置从而提取与AU关联的局部特征.Jaiswal等人62利用特征点为每个AU预定义方形的感兴趣区域Region of InterestROI以及对应的二进制掩膜Mask其中掩膜上特征点形成的多边形区域内点的值为1而其他点的值为0然后基于CNN从裁剪的ROI和掩膜提取每个AU的特征.Ali等人63先利用一个卷积层提取低层特征然后根据特征点位置在这一特征图Feature Map上裁剪与AU的ROI对应的方块并分别利用一个CNN从每个方块进一步提取特征.Ma等人64利用特征点为AU定义边界框Bounding Box将通用的物体检测问题融入AU识别预测AU在哪个边界框出现若某一AU不出现于当前人脸则对于所有边界框都应被预测为不出现.这些方法将ROI内所有位置视为相等的重要性没有考虑到离AU中心越近的位置应该与AU越相关.图5 常见AU的中心位置及可视化注:其中每2个相同颜色的点表示某一AU的2个对称的中心.“尺度”指2个内眼角之间的距离. 白色的点表示49个人脸特征点,其中一些点被AU的中心覆盖Li等人6165为每个AU的ROI定义注意力Attention分布ROI内离中心越近的位置其注意力权重越大然后在AU识别网络中利用注意力图对特征图中的AU特征进行增强并在网络的末端从特征图上裁剪每个AU的ROI方块.Sanchez等人66依据AU的标签将其注意力分布定义为高斯分布特征点决定分布的中心位置而AU强度决定分布的振幅和大小然后利用CNN从输入图像回归每个AU的注意力图来实现AU强度估计.考虑到AU会随人和表情变化而非刚性变化且不可加性导致AU的外观改变Shao等人52在CNN中利用配准分支所预测的特征点定义初始注意力图然后利用AU识别的监督信号自适应地优化每个AU的注意力图从而更准确地捕捉AU关联区域.然而上述方法均被特征点先验知识所约束每个AU的注意力高亮区域集中在预定义ROI的附近难以准确捕捉远离预定义ROI的关联区域.3.2.2 自适应区域学习当利用AU标签来有监督地训练深度神经网络时网络在特征学习过程中会隐式地自适应捕捉AU的关联区域.Liu等人67迭代地在CNN学习的特征图上选择与目标表情标签相关性最高的特征这些特征所在区域被期望为与AU关联的感受野然后将这些感受野内的特征输入到RBM来实现表情分类.考虑到不同人脸区域的AU具有不同的结构和纹理属性对不同区域应该采用独立而不是共享的滤波器Zhao等人68引入分块卷积层将特征图划分为相同大小的多个小块在每一小块内部采用独立的卷积滤波器来提取特征该特征图能够隐式地捕捉AU的关联区域.为了适应不同大小的AUHan等人69提出自适应大小的卷积滤波器在训练CNN时学习卷积层的滤波器大小和权重参数.然而这些方法没有以显式的方式来自适应学习关联区域因此只能粗略地确定AU的区域位置.近年来一些工作在网络中加入注意力学习模块显式地捕捉AU关联区域.Shao等人24不依赖特征点的先验约束直接通过AU识别的监督信号自适应地学习通道级注意力和空间注意力同时利用全连接条件随机场Conditional Random FieldCRF捕捉像素级关系来优化空间注意力从而选择和提取每个AU的关联特征.Ertugrul等人7071分别采用一个CNN从裁剪的人脸块提取特征接着利用注意力机制对各个块所提取的特征进行加权实现AU识别.虽然上述工作能够较好地捕捉AU特征但仍包含了一些不相关的信息影响AU识别的精度.3.3 基于关联学习的方法人脸表情涉及多个局部位置的肌肉动作因而像素位置间的关系可以被利用起来.表情中会时常出现多个AU但不会所有AU都出现因而除部分AU相互独立不相关外多数AU之间并不独立可能同时出现正相关也可能相互排斥负相关.而且在视频中AU是动态变化的挖掘时域关联可以促进AU识别.3.3.1 像素级关联学习Shao等人24利用全连接CRF捕捉像素级关联关系对每个AU的空间注意力进行优化从而捕捉更准确的AU特征.Niu等人72首先利用CNN提取人脸特征这一特征的空间上每一点沿通道的特征向量被作为一个局部特征接下来利用长短期记忆Long Short-Term MemoryLSTM网络学习局部特征间的关系由于不同AU涉及不同位置的肌肉动作该方法对每个AU分别采用一个LSTM来学习不同局部特征的贡献.鉴于密集的人脸特征点可以描述人脸几何结构Fan等人73利用图卷积网络Graph Convolutional NetworkGCN从特征点空间位置形成的几何图结构中学习一个隐向量该隐向量包含人脸形状模式以及特征点间的相互依赖关系在特征学习过程中被用来增强表征能力.在这些工作中像素与AU的对应并不明确使得像素级关系对AU识别的促进作用较有限.3.3.2 AU级关联学习考虑到AU的强度级别从0到5是有序的OrdinalTran等人74引入变分有序高斯过程自编码器Variational Ordinal Gaussian Process Auto-EncoderVO-GPAE在学习隐特征时施加AU强度有序关系的约束.Benitez-Quiroz等人75提出一个全局-局部损失其中局部损失分别促进每个AU的预测而全局损失对2个或2个以上AU真实值均为出现即正相关的情况进行约束促进对正相关AU的预测.Walecki等人76将CNN和CRF组合在一个端到端的框架中其中CRF的一元能量项捕捉AU强度的有序结构二元能量项捕捉AU间的依赖关系.Corneanu等人77将CNN和循环神经网络Recurrent Neural NetworkRNN组合成一个深度结构推理网络Deep Structure Inference NetworkDSIN其中RNN由许多结构推理单元构成采用门控策略控制每2个AU结点间的信息传递从而推理AU之间的结构关系.Jacob等人78采用一个注意力网络来回归每个AU由特征点所预定义的注意力图然后将注意力增强后的AU特征输入到一个变换器Transformer中捕捉AU间的关系.近年来图神经网络Graph Neural NetworkGNN开始被应用于AU关联学习.Li等人79从多个AU数据集统计出AU对的3种依赖关系基于此构建有向的AU关系图每个AU是一个结点结点间的有向边类型包括正相关和负相关2种AU间不相关则没有边相连然后利用门控GNN80对AU关系建模.Liu等人81和Niu等人82首先基于数据集统计的依赖关系构建AU关系图然后利用GCN建模AU间的关系.由于AU间依赖可能随人和表情的变化而变化另一些工作采用动态的关系图结构.Fan等人83提出一个语义对应卷积Semantic Correspondence ConvolutionSCC模块将前一层的每个特征图通道作为一个结点构建K-近邻图动态地计算通道间的语义对应由于每个通道编码了AU的一个特定模式这样可以学习AU间的关系.Song等人84提出不确定图卷积Uncertain Graph Convolution自适应地学习基于概率的掩膜来捕捉个体样本的AU间依赖以及不确定性.Song等人85提出一个混合信息传递神经网络利用性能驱动的蒙特卡罗马尔可夫链采样方法来学习AU关系图然后在信息传递过程中动态地组合不同类型信息使它们相互补充.此外为了抑制标签不均衡导致的预测偏置许多工作通过调整采样率和权重来进行平衡.Li等人61在深度神经网络的训练过程中对训练集中出现频率较低的AU采用更大的随机采样率使得每个小批量Mini-Batch中不同AU出现的频率较均衡.另一些工作245277在计算AU识别损失时给每一AU所赋的权重与该AU出现的频率成反比从而加强了出现频率较低的AU.此外为了平衡每个AU的出现频率和不出现频率Li等人79对交叉熵损失中出现频率的熵项乘以训练集中该AU的不出现频率而对不出现频率的熵项乘以该AU的出现频率这样若某一AU的不出现频率大于出现频率其对应于出现的损失项被加强.Song等人84提出自适应加权损失函数通过自适应地学习认知不确定性Epistemic Uncertainty来计算小批量中每个样本的权重不确定性越高的样本被赋以越大的权重从而抵消数据不均衡.上述方法所学习的AU关联依赖训练数据集的AU标签分布使得训练的AU识别模型难以适应跨数据集测试泛化能力较低.3.3.3 时域关联学习当前采用时域关联学习的方法一般先提取视频中每帧人脸图像的空间特征然后利用LSTM等时间序列模型对时域上帧间关联进行建模.Chu等人86采用CNN提取各帧空间特征并用LSTM 对帧间的时域信息进行建模最后在CNN和LSTM的末端将时空特征进行融合.Bishay等人87设计一个三层级的框架在第一层级利用CNN学习人脸外观特征并利用多层感知机从人脸特征点学习几何特征在第二层级利用RNN从连续帧学习时域上的关联在第三层级将各网络的预测结果进行融合.He等人88将双向LSTM与RNN结合起来学习时域特征.Song等人89利用多个LSTM同时挖掘时域和空间域上的关联信息.Yang等人90采用2D的CNN对每帧图像提取特征同时采用3D的CNN捕捉图像序列的时空信息从而实现AU识别.Yang等人91利用单张图像及一张锚定图像来无监督地学习光流从而捕捉时域信息再将光流输入到AU识别网络进行AU预测这里光流网络和AU识别网络被联合地训练使得AU标签可以提供语义信息从而促进光流的学习.Zhang等人92利用注意力机制实现特征融合和标签融合其中前者用于捕捉人脸局部块间的空间关系而后者用于捕捉时域动态关系.这些工作主要是将已有的时间序列模型应用于AU识别任务并未明确地对AU在时域上动态非刚性变化的过程进行分析和处理限制了时域关联学习的有效性.4 代表性AU识别方法对比表 4、表 5 分别对代表性的基于深度学习的 AU 检测和AU强度估计方法进行了总结和对比从中可以观察到如下几方面的现象.1目前研究AU检测的工作多于AU强度估计这是因为强度估计不仅需要判断每个AU是否出现还需识别AU的强度更具挑战性.2大多数AU识别工作将迁移学习、区域学习和关联学习中多种策略进行结合而不是仅基于一种学习策略这是因为实现高精度的AU识别需要同时解决标签稀缺性、特征难捕捉性和标签不均衡性的挑战.3采用关联学习的工作如R-T165D-PAttNet71和DPG89取得相比于其他工作更高的精度表明AU间关联以及时域关联对AU识别具有重要意义.4当前基于迁移学习的工作如MLCR82和TAE60并未取得相比于其他工作明显的性能优势说明这类方法仍有较大的挖掘空间需要进一步从AU的特性出发提出有效的模型来充分利用已有的样本、标签、模型以及先验知识.5与JÂA-Net52和G2RL73相比R-T165AU R-CNN64KBSS51和SCC83等工作无法在BP4D和DISFA上同时取得较高的精度说明AU识别模型的可靠性和泛化能力也是需要着重研究的地方.5 总结与展望目前表情AU识别技术已取得较大的发展但其精度仍有很大的提升空间无法很好地满足实际应用需求.未来可从以下几方面进一步进行探索.1已有基于迁移学习的工作尚无法有效地解决标签稀缺性挑战. 未来可以采取融合多种策略的方式①将具有AU标签的样本作为源样本利用GAN将无标签目标样本的表情编辑为源表情则其具有源样本的AU标签这些新生成的目标样本提高了训练数据的多样性②利用最新的人脸配准开源库对样本标注特征点同时结合具有整体表情标签的数据集挖掘特征点、整体表情与AU间关联性促进AU识别③将自监督学习、有监督学习、域适应多种方法综合起来利用自监督学习从无标签样本中学习AU本质属性的特征表示利用有监督学习从具有AU标签的样本中学习AU识别模型利用域适应使得其他域训练的模型可以被应用于当前域.2当前的AU识别模型在对多个AU同时预测时仍易于偏向提升出现频率较高AU的精度以及偏向将AU预测为不出现标签不均衡性依然严重限制着AU识别的精度.可选的解决方案为①利用GAN进行数据扩增尽量使所生成的数据集在每个AU的出现与不出现频率、不同AU间的出现频率方面保持均衡②借鉴已有的处理长尾分布等不均衡数据的方法对不均衡的AU标签分布进行建模充分挖掘不同AU间的关联关系.3现有的工作主要关注受控环境更接近实际应用场景的非受控AU识别的相关研究仍较少.未来可从以下角度切入非受控环境的研究①研究受控域到非受控域的AU迁移方法利用具有AU标签的受控域数据集生成新的非受控域样本扩增非受控域训练数据②提高方法对不同头部姿态的鲁棒性可以定位3D的人脸特征点、构造UV 映射、计算3D人脸表面的测地距离这些辅助信息都可以加到深度神经网络中在输入、中间的特征提取或者后置处理环节提升AU识别的精度③利用特征解耦方法将光照、姿态、遮挡等信息从AU特征中分离实现光照无关、姿态无关、遮挡无关的AU识别.4当前的AU数据集具有样本规模小且多样性低、标签稀缺且不均衡、缺乏非受控样本等不足.未来可以构建一个规模大、样本多样性丰富、AU标注全面的非受控环境数据集.由于对AU进行人工标注的成本很高在标注的过程中可以基于主动学习Active Learning94~96从一个具有人工标注的小训练集开始训练模型并对未标注样本进行预测然后基于预测结果选择信息最丰富、存在出现频率较低AU的未标注样本进行人工标注再将新标注的样本加入训练集并更新模型重复上述步骤直至被训练的模型在测试集上的性能已收敛或已满足精度要求这样可以保证有限的标注成本用在最需要的样本上.未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

查看全文

http://www.pierceye.com/news/544841/