当前位置：首页 > news >正文

做游戏ppt下载网站有哪些内容互联网+创业大赛

news 2025/12/23 23:27:13

做游戏ppt下载网站有哪些内容,互联网+创业大赛,wordpress标签链接优化,推广app接单网文 | 橙橙子面试官: 听说你对多模态感兴趣#xff0c;请问为什么多模态学习要比单模态学习效果好#xff1f;候选人: 直观地#xff0c;多模态学习可以聚合多源数据的信息#xff0c;使得模型学习到的表示更加完备。以视频分类为例#xff0c;同时使用字幕标题等文本信息、… 文 | 橙橙子面试官: 听说你对多模态感兴趣请问为什么多模态学习要比单模态学习效果好候选人: 直观地多模态学习可以聚合多源数据的信息使得模型学习到的表示更加完备。以视频分类为例同时使用字幕标题等文本信息、音频信息和视觉信息的多模态模型要显著好于只使用任意一种信息的单模态模型这已经被多篇文章实验验证过。面试官: 直觉实验是老生常谈了我听过很多次了有没有更严谨一些的证明候选人内心语面试官这是要找茬呀还好有萌屋救我...候选人刚好最近看了一篇多模态学习理论分析的文章从数学角度证明了潜表征空间质量直接决定了多模态学习模型的效果。而在充足的训练数据下模态的种类越丰富表征空间的估计越精确容我细细道来...论文标题What Makes Multimodal Learning Better than Single (Provably)论文链接https://arxiv.org/pdf/2106.04538.pdf背景尽管在实际应用中使用多模态学习构建识别或检测系统经常可以有更好的表现。但是从理论角度讲我们对多模态学习的认识却极其有限。基础的问题悬而未决多模态学习能证明比单模态学习效果好么在这篇文章中作者从两个角度回答了这个问题When在何种条件下多模态学习比单模态学习好Why是什么造成了其效果的提升公式化定义本文基于一种经典的多模态学习框架即无缝进行潜空间学习Latent Space Learning与任务层学习Task-specific Learning。具体地首先将异构数据编码到一个统一潜空间对应的映射函数族为要寻找的最优的映射是。接着潜空间的表示再经过任务层的映射被用于指定任务中映射的函数族为其中最优映射为。具体地我们假设共包含有个模态其中训练数据定义为其中表示第个模态的信息。输入空间为目标为。表示从输入空间包含所有个模态到潜表示空间的正确映射。表示任务层的正确映射。数据是从未知分布中采样得到的这里代表和的复合函数。在真实世界里我们经常会面临数据的模态信息不完整的问题即有一些模态是缺失的。设是所有模态的子集我们可以关注只使用种模态的学习问题其中。定义为只含有种模态的输入空间其中, 代表第个模态信息没有被使用。我们可以定义从到的映射为:类似地定义为到的映射函数族定义表示从到只包括种模态的映射函数族给定训练数据学习的目标是找到和使得经验风险最小化Empirical Risk Minimization, ERM :正如[1][2],我们使用群体风险Population Risk来衡量模型的学习效果举个具体的例子考虑使用多模态后期融合Late-Fusion模型做视频分类。在这种设定中每一种模态譬如RGB帧、音频、光流或者字幕等被特定的深度神经网络编码后得到的特征经过融合后进入分类器。假设我们使用表示某种特征融合操作譬如self-attention。则可以表示为, 是对应的分类器。证明一潜表示空间的质量决定了多模态模型的效果潜表示空间被用于更好的利用各种模态之间的关联关系所以我们很自然的会猜测它和多模态学习的效果息息相关。对于已经学习到任意潜表示定义为它的质量Quality即与最优潜表示映射和任务映射对应的群体风险差距的下界这里表示固定的条件下能取得的最小群体风险。因此一定程度讲可以度量由于和的差距导致的损失。定理1设是从数据分布独立采样得到的个样本。同时拉德马赫复杂度Rademacher Complexity[3]被广泛用于衡量模型复杂度。在上训练的模型的拉德马赫复杂度被记为。是的两个独立的多模态子集在这和种模态上训练分别优化经验最小风险得到了和。对于所有的至少以概率下满足其中分析可以发现在和种模态上分别训练的模型效果差距的上限其中一部分是由潜空间的质量差距决定的。我们可以再进行一轮分析拉德马赫复杂度的界通常是其中表示函数的内在复杂度由于定理一的和都是常数则定理一可以重新写作这表明随着训练数据的增加变大使用多种模态训练模型的效果主要取决于它的潜表示空间的质量。证明二数据量达到一定规模模态种类越完整多模态模型的效果越好定理一已经在潜空间质量和群体风险差别之间建立了联系下一个目标是估计已经学到的潜空间表示和最优的准确表示之间的差距。下面的定理二表明潜空间的质量其实在训练过程中是可以被控制的。定理2依然假设是从数据分布独立采样得到的个样本。是的两个独立的多模态子集在这种模态上训练分别优化经验最小风险得到了。对于所有的至少以概率下满足其中是中心经验损失。分析考虑根据拉德马赫复杂度的相关性质参考定理1的介绍、并且有。从而如果我们希望更多的模态能产生更好的潜空间更好的效果即那么需要满足这表明了两部分信息1随着数据量的增大模型的内在复杂度的影响会被降低。2随着数据量的增大上式容易被满足即使用更多的模态的学习效果优于更少模态的效果。彩蛋论文也证明了一个特殊的情况即当潜空间的映射函数和任务层的映射都是线性函数时始终成立即不完整的模态会伤害最优的潜表示从而降低模型的学习效果。实验进入到实验环节。论文也精心设计了实验来验证理论的正确性可谓是理论与实践结合的典范。多模态真实数据集实验这一部分采用了从真实世界收集的多模态情绪分析的数据集IEMOCAP(Interactive Emotional Dyadic Motion Capture)它包括三种模态文字Text、视频Video和音频Audio。首先使用离线的特征抽取工具对三种模态信息提取好特征Audio 100维Text 100维以及Video 500维。这个数据集的分类有六种分别是快乐、悲伤、中立、愤怒、兴奋和沮丧。使用了13200条数据做训练3410条做测试。实验模型上潜空间的映射使用了一层线性层Relu任务层使用了一层Softmax。在对比实验中如果是单模态模型则直接进行对应特征映射如果是多模态模型则首先进行多模态特征拼接然后再进行映射。实验一多模态学习效果更好。这一部分实验非常直接见下表使用全部模态取得了最好的效果。实验二定理1实验验证。为了对定理1有一个定量的分析文章模拟了潜表示质量的产生过程即首先未收敛状态下预先训练整个模型然后再固定encoder 不动寻找最优的分类器。已经获得了和就可以被量化出来。有一点不同的是数学公式里是按照经验损失来计算的是负数。这里用分类准确率来衡量是正值。数值越大代表潜表示的质量越高。如下表所示使用越多的模态值越大。实验三定理2实验验证。为了验证定理2论文在不同量级的训练数据对比了各种模态组合的学习效果差别。如下表可以看到在训练数据相对较少时多模态学习并不占优势可以理解为这时模型的内在复杂度的影响占主导地位。当数据量到达一定规模多模态种类丰富性的作用凸显出来。越完整丰富的模态组合取得越好的效果。模拟构造的数据集实验我们知道在真实数据中模态之间的相关性随任务和数据变化而变化。譬如在知识科普类视频中视觉信息和字幕文字信息关联程度是很高的这也是多视角学习MultiView Learing经常研究的范畴。而在电视剧剪辑类视频中视觉信息和文字信息关联程度则很微弱。那么本文的结论是否在不同程度的模态关联数据上都适用呢由于真实数据集很难定量的控制模态相关性程度。为了研究这个问题论文使用机器自动生成的方式构造了不同的模态关联数据用于验证。这里考虑三种情况1模态之间完全不共享信息即每个模态只包含模态特定的信息。2所有模态之间共享所有信息没有区分。3介于两者之间既共享一部分信息也保有模态特定信息。数据构造过程首先使用高斯分布中采样出模态1的特征数据其中每一个维度都是不相关的。接着我们固定一部分比例的已产生的数据然后再继续采样生成新的模态数据。这个比例在{0.0, 0.2, 0.5, 0.8, 1.0}之间。1.0表示全部共享0.0表示全部独立。每种模态含有100维特征目标是回归拟合1维的label。这个过程共产生了7000条训练数据和3000条测试数据。这里使用了四种模态数据1234。潜表示质量和模态相关性的关系如下表所示首先观察到上文的结论在不同的模态相关性设置中是通用的。另外模态相关性越高潜表示质量也越好这也非常符合直觉。结论面试官小伙子你很有前途明天来报道萌屋作者橙橙子拿过Kaggle金水过ACM银发过顶会Paper捧得过多个竞赛冠军。梦想是和欣欣子存钱开店沉迷于美食追剧和炼丹游走于前端后端与算法竟还有一颗想做PM的心作品推荐惊呆不用一张图片却训出个图像识别SOTA视觉增强词向量我是词向量我开眼了后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1] Learning from multiple partially observed views-an application to multilingual text categorization https://proceedings.neurips.cc/paper/2009/file/f79921bbae40a577928b76d2fc3edc2a-Paper.pdf[2] On the theory of transfer learning: The importance of task diversity https://arxiv.org/pdf/2006.11650.pdf[3] Rademacher and gaussian complexities: Risk bounds and structural results https://www.jmlr.org/papers/volume3/bartlett02a/bartlett02a.pdf

查看全文

http://www.pierceye.com/news/638764/