网站分页设计,p2p网站开发价格,网站建设怎么翻译,怎么注销建设银行网站用户名目录一、实验背景二、实验设置三、实验结果和分析四、结语TGD 是我们定义的一种新的“变化率表征”#xff0c;对连续函数而言是一种新的“广义导数”#xff0c;对离散序列而言是一种新的差分。TGD 是一个名字#xff0c;一个代号。在基于 TGD 的图像边缘检测以及视频边缘检…
目录一、实验背景二、实验设置三、实验结果和分析四、结语TGD 是我们定义的一种新的“变化率表征”对连续函数而言是一种新的“广义导数”对离散序列而言是一种新的差分。TGD 是一个名字一个代号。在基于 TGD 的图像边缘检测以及视频边缘检测中我们发现输入序列卷积 TGD 算子得到的响应结果带来了边缘检测的优异结果。为此我们猜测信号的 TGD 值能够被视作一种特征即「 TGD 特征 」并且做很多其他事服务很多 CV 计算机视觉任务。至于能做什么不知道既然不知道那就交给神经网络作为特征好了。为此则有了本章节“当神经网络遇到 TGD 特征When TGD features meet Neural Network”。感兴趣的朋友欢迎阅读详见前面的章节
理论部分
TGD 第一篇初心——我想要为“阶梯函数”求导。
TGD 第二篇破局——去除导数计算中的无穷小极限。
TGD 第三篇革新——卷积计算导数的高效之路。
TGD 第四篇初瞰——抗噪有效的定性计算。
TGD 第五篇飞升——给多元函数的导数计算加上全景雷达。
TGD 第六篇落地——离散序列的 TGD 计算。
传统计算机视觉应用部分
TGD 第七篇一维应用——信号去噪和插值。
TGD 第八篇二维应用——图像边缘检测。
TGD 第九篇三维应用——视频边缘检测。
一、实验背景
2021 年春我选修了孙延奎老师开设的《小波分析及其工程应用》课程非常好并且在课程上遇到了“官佳智”大佬当时大作业要求用小波做想做的任何事。当时是 2021 年春夏之交经过调研和论文搜索官佬找到了 AAAI2020 刚刚入选的一篇文章 MIMAMO Net1Micro-Macro-Motion Net。并找到了其 Github 链接基于此开展实验。该工作将连续视频帧作为输入反正经过“吧啦吧啦吧啦”2得到了一组特征来表征连续帧之间的时序特征并将该时序特征引入深度神经网络中在“视频人脸情感识别任务”中取得了 SOTA 的表现。MIMAMO 框架如下图所示模型输入是连续帧图像。在对每一帧的预测过程中Spatial stream 由预训练的 Resnet50 网络提取该静态帧的结构特征Temporal stream 用相位差特征作为输入利用一个多层 CNN 进行编码最后多帧的空间特征Spatial Feature和时序特征Temporal Feature拼接后经过 RNN 编码输出 valence-arousal 的预测结果。他的大作业就是把 MIMAMO 中的傅立叶相位差特征变成小波系数做差得到的特征。
大作业答辩的时候听了官佬的答辩我说相邻两帧直接做差不好我的研究就是离散序列如何计算变化率于是就和他交流了 TGD 的思想当初的取名还叫做窗导数Window Derivative所以后面的一些图中会看到「WD」。为此这个实验是在官佬的大作业基础上继续做出来的下面的实验当时由官大佬主导完成。 首先让我们分析一下“视频人脸情感识别任务”和TGD的适配性即根据输入视频中人物的面部动作、微表情等特征判断人物实时的情感状态。而脸部在时间维度上的像素值的变化恰好能够表征人脸面部器官、肌肉等变化特征。在时间方向的一阶TGD响应中红色为未来将出现运动的部分蓝色部分为过去消失运动的部分在时间方向的二阶TGD响应中蓝色为当前即将运动的部分红色为过去和未来运动的部分颜色越鲜艳变化速度越快。之前的实验应用已经看到TGD能够表征时间上的像素变化那么将其放入神经网络会带来什么惊喜呢 二、实验设置
【TGD 算子】我们基于正交构造法使用高斯权重分布函数构造三维一阶和二阶 TGD 算子求导方向为时间轴方向。
【数据集】与 MIMAMO 论文保持一致实验使用数据集是 Aff-Wild3。该数据集包含了一共 298298298 段从 Youtube 收集的、表达了人们情感变化的长视频。这些视频中一共有 200200200 个不同的人物包含了不同的种族、肤色、性别总时长超过了 303030 小时。这些视频的每一帧都由 888 位不同的人员在 valence-arousal 连续空间取值范围 [−1,1][-1,1][−1,1] 进行了标注任意一帧图像的 valence 情感是多么积极或消极、正向或负向) 和 arousal 情感的强度 值共同表现了当前时刻人物的情感特征。
【评价指标和损失函数】与 MIMAMO 论文保持一致实验中评价指标为一致性相关系数 Concordance Correlation Coefficient (CCC)并且损失函数为最小化负一致性相关系数。 【对比设置】为了验证「 TGD 特征 」在的性能我们仅仅在上图所示的 MIMAMO Net 的网络架构替换输入的时序特征Temporal Feature保持其他网络结构不动展开实验。也是结合了刚上完的小波课程我们尝试直接在 RGB 域即不对原始输入帧进行变换和小波域利用三维 TGD 构建更为高效的面部时序特征。实验共设置了七组时序特征作为对比
第一组FT 相位差特征即 MIMAMO 论文初始配置第二组小波系数直接做差Wavelet Transform DifferenceWavelet-Diff: 利用 Haar 小波变换获得每一帧的小波系数使用连续帧之间的小波系数差作为时序特征。第三组小波系数高斯平滑求导Wavelet Transform Gaussian Derivative (Wavelet-GD)利用 Haar 小波变换获得每一帧的小波系数对帧内小波系数进行二维高斯平滑且替换相邻帧差为卷积一维高斯一阶和二阶导数卷积核作为时序特征这组实验的设置和图像边缘检测中的对比设置一致告诉大家高斯平滑在变化率表征中不好用。第四组小波系数 TGDWavelet Transform TGD(Wavelet-TGD)利用 Haar 小波变换替换相邻帧差为卷积时间方向一阶和二阶三维 TGD 算子作为时序特征。第五组连续帧直接做差Frame Difference(Frame-Diff)直接利用连续帧之间的差值直接作为时序特征。第六组连续帧 高斯平滑求导Frame Gaussian Derivative (Frame-GD)对帧内进行高斯平滑且替换相邻帧差为卷积一维高斯一阶和二阶导数卷积核作为时序特征。第七组连续帧 TGDFrame TGD (Frame-TGD)替换相邻帧差为卷积时间方向一阶和二阶三维 TGD 算子作为时序特征。
原始 MIMAMO 通过连续 131313 帧经两个方向带通滤波和降采样获得 484848 个相位差特征。针对第五至第七组实验设置 131313 个连续帧经帧间直接做差得到 121212 个时序特征对于高斯平滑求导帧内使用 7×77 \times 77×7 的高斯平滑核 (高斯方差 δ1\delta 1δ1 )时间方向使用长度为 111111 的高斯一阶导算子和二阶导算子(高斯方差 δ1.7\delta 1.7δ1.7 ))可获得 333 个一阶以及 333 个二阶导数特征合计 666 个时序特征对于 TGD三维 TGD 算子卷积核尺寸为 7×7×117 \times 7 \times 117×7×11 由于使用正交构造法等效于帧内进行 7×77 \times 77×7 高斯积分平滑核进行平滑高斯方差 δ1\delta 1δ1 时间方向高斯方差取 δ1.7\delta 1.7δ1.7 可获取到 333 个一阶 TGD 以及 333 个二阶 TGD 特征合计 6 个 TGD 时序特征。而在小波域中第二至第四组实验设置水平和竖直方向的高低频特征分别计算所以得到 4 倍于第五至第七组实验设置的特征数量。
从时空梯度特征的角度来看对于一秒 202020 帧的视频两帧直接做差的方法得到的单个特征仅使用了 0.05s 内的运动信息计算得到的数值极易受噪声影响。相较而言TGD 算子对连续 111111 帧进行卷积计算单个特征能使用 0.5s 内的信息在时间维度上具有更大的跨度 101010 倍于两帧做差的算法能够一定程度上实现降噪。
为了和 MIMAMO 保持一致时序特征被设置为与神经网络训练解耦合的步骤即在训练神经网络前完成时序特征的计算和存储。但是值得指出的是TGD 计算其实是用三维卷积核卷积连续帧。为此TGD 算子的数值其实可以作为三维卷积层的初始化卷积核参数构造的卷积层能直接作为神经网络的一部分在初始阶段进行特征提取。每组实验都运行了三次取平均值。
三、实验结果和分析 定量的实验结果上表所示TGD 最优
实验看起来小波系数直接做差比 MIMAMO 论文中的傅立叶系数滤波后做差还要好然后小波系数的 TGD 作为时序特征性能还有提升。原始帧直接做差可能不如小波系数Wavelet-Diff和傅立叶系数做差MIMAMO更令我惊讶的是直接原始帧的 TGD 作为时序特征效果最好并且TGD特征生成速度是傅立叶变换和小波变换的 4.74.74.7 倍和 6.26.26.2 倍。
除了定量的比较我们还可视化了不同输入时序特征图中 Window Derivative 就是 TGD首行为连续 131313 个输入帧第二行为 MIMAMO 的输入时序特征因为是傅立叶变换的相位基本看不出来几何属性 可解释性较差 第三到第八行的可视化结果则展现了人的面部变化特征更直观具有更强的可解释性。第三行为连续两帧直接做差受到了极大的噪声影响第四到第八行看起来效果差不多小波低频系数和高斯平滑求导、TGD 都能实现一定的去噪并且捕捉面部变化的部分。 既然看不出什么差别我就再往后看一层。下图可视化了不同的时序特征经过神经网络第一层卷积层后的激活图activation map。MIMAMO 确实可解释性太差Frame-Diff 的结果依旧存在很多噪声。无论是帧像素值还是其小波系数高斯平滑求导以及 TGD 得到的激活图中都可见清晰的人脸运动轮廓然而两者对比TGD 得到的激活图对运动区域的定位更“干净”更精确而高斯平滑求导由于定位漂移等缺点生成的时序特征会一定程度上误导神经网络从而会出现一些奇奇怪怪的“不干净”的激活图我认为这些“不干净”的激活图是用来矫正弥补高斯平滑求导带来的信息失真的。这也是为什么 Frame-GD 不如 Frame-TGDWavelet-GD 不如 Wavelet-TGD 的原因。 四、结语
本次实验其实是 2021 年的故事对比研究和分析在当时可能还微微有所贡献对于推动今天“视频人脸情感识别任务”发展基本没有什么贡献。应用的每一个篇章我都会强调做这些实验的目的不是解决某个具体问题不是刷榜和SOTA。
马克思提出 生产工具是衡量生产力发展水平的客观标志生产工具的改进和变革直接反映生产力水平但需通过人的劳动实现。 TGD 就是一个新的生产工具用来表征函数和信号变化率TGD的提出将提升生产力水平但还需要诸多研究者接续在下游任务中应用实现。我想做的就是告诉大家TGD这个新的生产工具是有实际使用价值的希望引起大家的共鸣仅此而已。
诚然在如今端到端大语言模型LLM的时代几乎没有研究者再来关注一个一个微小的任务在小众的数据集上刷指标刷排名。我想要指出的是哪怕“遇事不决量子力学难题有疑强化学习”Deepseek-R1 等具有思维链的大模型的出现使得我们人类可以以简单地结果为导向让 LLM 以黑盒形式自己去思考挖掘需要哪些特征需要如何提取这些特征。但是 会严重加速“人类的懒惰性“
我其实非常喜欢传统计算机视觉喜欢去理解当年如何建模这个问题的过程如何让问题回归到数学或者物理的领域去回归到笔尖纸张上面去。尽管大模型具有自动特征提取和处理功能 特征工程具有数学依据的人工特征 依然是十分重要和必要的。这部分能力不能丢因为这其实也是人类发现问题、分析问题、解决问题的能力。
当算力和数据集有限的时候我们的神经网络模型不可能太复杂导致模型的特征空间和解空间不大这时候特征工程还能和神经网络抗衡一下。随着算力和数据集的提升神经网络参数越来越多特征空间和解空间越来越大这时候人类没有 LLM 表现好一方面是我们的特征空间和解空间就没有LLM大另一方面是我们暂时还没有比 LLM 先找到一个更优解。
我不是让大家从大模型时代往回走而是说 大模型时代算力发展、数据标注和基础理论都很重要
我的原文地址TGD第十篇当神经网络遇到TGD特征 D. Deng, Z. Chen, Y. Zhou, and B. E. Shi. MIMAMO net: Integrating micro- and macro-motion for video emotion recognition. In The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, pages 2621–2628. AAAI Press, 2020. ↩︎ 大概来说就是首先获得输入帧经傅立叶变换后的频域系数将系数经过水平和竖直两个方向的带通滤波再转换到时域空间得到滤波后的相位再将相邻帧之间的相位做差表征时间维度的变化属性。 ↩︎ S. Zafeiriou, D. Kollias, M. A. Nicolaou, A. Papaioannou, G. Zhao, and I. Kotsia. Aff-wild: valence and arousal’in-the-wild’challenge. In Proceedings of the IEEE conference on computer vision and pattern recognition workshops, pages 34–41, 2017. ↩︎