当前位置：首页 > news >正文

宣城网站建设怎么样能够为一个网站做推广

news 2025/11/8 13:42:21

宣城网站建设,怎么样能够为一个网站做推广,WordPress评论列表去掉回复,wordpress博客价格文 | 谢凌曦知乎最近#xff0c;我参加了几个高强度的学术活动#xff0c;包括CCF计算机视觉专委会的闭门研讨会和VALSE线下大会。经过与其他学者的交流#xff0c;我产生了许多想法#xff0c;千头万绪#xff0c;便希望把它们整理下来#xff0c;供自己和同行们参考。当…文 | 谢凌曦知乎最近我参加了几个高强度的学术活动包括CCF计算机视觉专委会的闭门研讨会和VALSE线下大会。经过与其他学者的交流我产生了许多想法千头万绪便希望把它们整理下来供自己和同行们参考。当然受限于个人的水平和研究范围文章中一定会存在许多不准确甚至错误的地方当然也不可能覆盖所有重要的研究方向。我期待与有兴趣的学者们进行交流以充实这些观点更好地探讨未来发展方向。在这篇文章中我将会着重分析计算机视觉领域特别是视觉感知即识别方向所面临的困难和潜在的研究方向。相较于针对具体算法的细节改进我更希望探讨当前算法尤其是基于深度学习的预训练微调范式的局限性和瓶颈并且由此得出初步的发展性结论包括哪些问题是重要的、哪些问题是不重要的、哪些方向值得推进、哪些方向的性价比较低等。在开始之前我先画出如下思维导图。为了寻找合适的切入点我将从计算机视觉和自然语言处理人工智能中两个最受关注的研究方向的区别开始谈起引出图像信号的三个根本性质信息稀疏性、域间差异性、无限粒度性并将它们与几个重要的研究方向相对应。这样我们就能更好地了解每个研究方向所处的状态它已经解决了哪些问题、还有哪些重要的问题没有解决然后针对性地分析今后的发展趋势。▲导图CV和NLP的差异、CV三大挑战及应对方法CV的三大基本困难和对应的研究方向一直以来NLP都走在CV的前面。不论是深度神经网络超越手工方法还是预训练大模型开始出现大一统的趋势这些事情都先发生在NLP领域并在不久之后被搬运到了CV领域。这里的本质原因是NLP的起点更高自然语言的基础单元是单词而图像的基础单元是像素前者具有天然的语义信息而后者未必能够表达语义。从根本上说自然语言是人类创造出来用于存储知识和交流信息的载体所以必然具有高效和信息密度高的特性而图像则是人类通过各种传感器捕捉的光学信号它能够客观地反映真实情况但相应地就不具有强语义且信息密度可能很低。从另一个角度看图像空间比文本空间要大得多空间的结构也要复杂得多。这就意味着如果希望在空间中采样大量样本并且用这些数据来表征整个空间的分布采样的图像数据就要比采样的文本数据大许多个数量级。顺带一提这也是为什么自然语言预训练模型比视觉预训练模型用得更好的本质原因——我们在后面还会提到这一点。根据上述分析我们已经通过CV和NLP的差别引出了CV的第一个基本困难即语义稀疏性。而另外两个困难域间差异性和无限粒度性也多少与上述本质差别相关。正是由于图像采样时没有考虑到语义因而在采样不同域即不同分布如白天和黑夜、晴天和雨天等场景时采样结果即图像像素与域特性强相关导致了域间差异性。同时由于图像的基本语义单元很难定义而文本很容易定义且图像所表达的信息丰富多样使得人类能够从图像中获取近乎无限精细的语义信息远远超出当前CV领域任何一种评价指标所定义的能力这就是无限粒度性。关于无限粒度性我曾经写过一篇文章[1]专门讨论这个问题。以上述三大基本困难为牵引我们将业界近年来的研究方向总结如下语义稀疏性解决方案为构建高效计算模型神经网络和视觉预训练。此处的主要逻辑在于想要提升数据的信息密度就必须假设数据的非均匀分布信息论并对其建模即学习数据的先验分布。目前最为高效的建模方式有两类一类是通过神经网络架构设计来捕捉数据无关的先验分布例如卷积模块对应于图像数据的局部性先验、transformer模块对应于图像数据的注意力先验一类是通过在大规模数据上的预训练来捕捉数据相关的先验分布。这两个研究方向也是视觉识别领域最为基础、受到关注最多的研究方向。域间差异性解决方案为数据高效的微调算法。根据以上分析网络体量越大、预训练数据集体量越大计算模型中存储的先验就越强。然而当预训练域和目标域的数据分布具有较大差异时这种强先验反而会带来坏处因为信息论告诉我们提升某些部分预训练域的信息密度就一定会降低其他部分预训练域没有包含的部分即预训练过程中认为不重要的部分的信息密度。现实中目标域很可能部分或者全部落在没有包含的部分导致直接迁移预训练模型的效果很差即过拟合。此时就需要通过在目标域进行微调来适应新的数据分布。考虑到目标域的数据体量往往远小于预训练域因而数据高效是必不可少的假设。此外从实用的角度看模型必须能够适应随时变化的域因而终身学习是必须。无限粒度性解决方案为开放域识别算法。无限粒度性包含开放域特性是更高的追求目标。这个方向的研究还很初步特别是业界还没有能被普遍接受的开放域识别数据集和评价指标。这里最本质的问题之一是如何向视觉识别中引入开放域能力。可喜的是随着跨模态预训练方法的涌现特别是2021年的CLIP自然语言越来越接近成为开放域识别的牵引器我相信这会是未来2-3年的主流方向。然而我并不赞成在追求开放域识别的过程中涌现出的各种zero-shot识别任务。我认为zero-shot本身是一个伪命题世界上并不存在也不需要zero-shot识别方法。现有的zero-shot任务都是使用不同方法将信息泄露给算法而泄露方式的千差万别导致不同方法之间难以进行公平对比。在这个方向上我提出了一种被称为按需视觉识别的方法以进一步揭示、探索视觉识别的无限粒度性。这里需要做一个补充说明。由于数据空间大小和结构复杂度的差异至少到目前为止CV领域还不能通过预训练模型直接解决域间差异的问题但是NLP领域已经接近了这一点。因此我们看到了NLP学者们利用prompt-based方法统一了几十上百种下游任务但是同样的事情在CV领域并没有发生。另外在NLP中提出来的scaling law其本质在于使用更大的模型来过拟合预训练数据集。也就是说对于NLP来说过拟合已经不再是一个问题因为预训练数据集配合小型prompt已经足以表征整个语义空间的分布。但是CV领域还没有做到这一点因此还需要考虑域迁移而域迁移的核心在于避免过拟合。也就是说在接下来2-3年CV和NLP的研究重心会有很大的差异因而将任何一个方向的思维模式生搬硬套在另一个方向上都是很危险的。以下简要分析各个研究方向方向1a神经网络架构设计2012年的AlexNet奠定了深度神经网络在CV领域的基础。随后10年至今神经网络架构设计经历了从手工设计到自动设计再回到手工设计引入更复杂的计算模块的过程2012-2017年手工构建更深的卷积神经网络探索一般优化技巧。关键词ReLU、Dropout、3x3卷积、BN、跳跃连接等。在这个阶段卷积操作是最基本的单元它对应于图像特征的局部性先验。2017-2020年自动构建更复杂的神经网络。其中网络架构搜索NAS盛行一时最后定型为基础工具。在任意给定的搜索空间中自动设计都能够达到稍微更好的结果且能够快速适配不同的计算开销。2020年至今起源于NLP的transformer模块从被引入CV利用attention机制补足了神经网络的远距离建模能力。如今大部分视觉任务的最优结果都借助于包含transformer的架构所达到。对于这一方向的未来我的判断如下如果视觉识别任务没有明显改变那么不论是自动设计或者加入更复杂的计算模块都无法将CV推向新的高度。视觉识别任务的可能改变大致可以分为输入和输出两个部分。输入部分的可能改变如event camera它可能会改变规则化处理静态或者时序视觉信号的现状催生特定的神经网络结构输出部分的可能改变则是某种统一各种识别任务的框架方向3会谈到它有可能让视觉识别从独立任务走向大一统从而催生出一种更适合视觉prompt的网络架构。如果一定要在卷积和transformer之间做取舍那么transformer的潜力更大主要因为它能够统一不同的数据模态尤其是文本和图像这两个最常见也最重要的模态。可解释性是一个很重要的研究方向但是我个人对于深度神经网络的可解释性持悲观态度。NLP的成功也不是建立在可解释性上而是建立在过拟合大规模语料库上。对于真正的AI来说这可能不是太好的信号。方向1b视觉预训练作为如今CV领域炙手可热的方向预训练方法被寄予厚望。在深度学习时代视觉预训练可以分为有监督、无监督、跨模态三类大致叙述如下有监督预训练的发展相对清晰。由于图像级分类数据最容易获取因此早在深度学习爆发之前就有了日后奠定深度学习基础的ImageNet数据集并被沿用至今。ImageNet全集超过1500万的数据规模至今没有被其他非分类数据集所超越因此至今仍是有监督预训练上最常用的数据。另外一个原因则是图像级分类数据引入了较少bias因而对于下游迁移更加有利——进一步减少bias就是无监督预训练。无监督预训练则经历了曲折的发展历程。从2014年开始出现了第一代基于几何的无监督预训练方法如根据patch位置关系、根据图像旋转等进行判断同时生成式方法也在不断发展生成式方法可以追溯到更早的时期此处不赘述。此时的无监督预训练方法还显著地弱于有监督预训练方法。到了2019年对比学习方法经过技术改进首次显现出在下游任务上超越有监督预训练方法的潜力无监督学习真正成为CV界关注的焦点。而2021年开始视觉transformer的兴起催生了一类特殊的生成式任务即MIM它逐渐成为统治性方法。除了纯粹的有监督和无监督预训练还有一类介于两者之间的方法是跨模态预训练。它使用弱配对的图像和文本作为训练素材一方面避免了图像监督信号带来的bias一方面又比无监督方法更能学习弱语义。此外在transformer的加持下视觉和自然语言的融合也更自然、更合理。基于上述回顾我做出如下判断从实际应用上看应该将不同的预训练任务结合起来。也就是说应当收集混合数据集其中包含少量有标签数据甚至是检测、分割等更强的标签、中量图文配对数据、大量无任何标签的图像数据并且在这样的混合数据集上设计预训练方法。从CV领域看无监督预训练是最能体现视觉本质的研究方向。即使跨模态预训练给整个方向带来了很大的冲击我依然认为无监督预训练非常重要必须坚持下去。需要指出视觉预训练的思路很大程度上受到了自然语言预训练的影响但是两者性质不同因而不能一概而论。尤其是自然语言本身是人类创造出来的数据其中每个单词、每个字符都是人类写下来的天然带有语义因此从严格意义上说NLP的预训练任务不能被视为真正的无监督预训练至多算是弱监督的预训练。但是视觉不同图像信号是客观存在、未经人类处理的原始数据在其中的无监督预训练任务一定更难。总之即使跨模态预训练能够在工程上推进视觉算法使其达到更好的识别效果视觉的本质问题还是要靠视觉本身来解决。当前纯视觉无监督预训练的本质在于从退化中学习。这里的退化指的是从图像信号中去除某些已经存在的信息要求算法复原这些信息几何类方法去除的是几何分布信息如patch的相对位置关系对比类方法去除的是图像的整体信息通过抽取不同的view生成类方法如MIM去除的是图像的局部信息。这种基于退化的方法都具有一个无法逾越的瓶颈即退化强度和语义一致性的冲突。由于没有监督信号视觉表征学习完全依赖于退化因此退化必须足够强而退化足够强时就无法保证退化前后的图像具有语义一致性从而导致病态的预训练目标。举例说对比学习从一张图像中抽取的两个view如果毫无关系拉近它们的特征就不合理MIM任务如果去除了图像中的关键信息如人脸重建这些信息也不合理。强行完成这些任务就会引入一定的bias弱化模型的泛化能力。未来应该会出现一种无需退化的学习任务而我个人相信通过压缩来学习是一条可行的路线。方向2模型微调和终身学习作为一个基础问题模型微调已经发展出了大量的不同的setting。如果要把不同的setting统一起来可以认为它们无非考虑三个数据集即预训练数据集不可见、目标训练集、目标测试集不可见且不可预测。根据对三者之间关系的假设不同比较流行的setting可以概括如下迁移学习假设或者和的数据分布大不相同弱监督学习假设只提供了不完整的标注信息半监督学习假设只有部分数据被标注带噪学习假设的部分数据标注可能有误主动学习假设可以通过交互形式标注挑选其中最难的样本以提升标注效率持续学习假设不断有新的出现从而学习过程中可能会遗忘从学习的内容……从一般意义上说很难找到统一的框架来分析模型微调方法的发展和流派。从工程和实用角度看模型微调的关键在于对域间差异大小的事先判断。如果认为和的差异可能很大就要减少从预训练网络中迁移到目标网络中权重的比例或者增加一个专门的head来适应这种差异如果认为和的差异可能很大就要在微调过程中加入更强的正则化以防止过拟合或者在测试过程中引入某种在线统计量以尽量抵消差异。至于上述各种setting则分别有大量研究工作针对性很强此处不再赘述。关于这个方向我认为有两个重要问题从孤立的setting向终身学习的统一。从学术界到工业界必须抛弃“一次性交付模型”的思维将交付内容理解为以模型为中心配套有数据治理、模型维护、模型部署等多种功能的工具链。用工业界的话说一个模型或者一套系统在整个项目的生命周期中必须得到完整的看护。必须考虑到用户的需求是多变且不可预期的今天可能会换个摄像头明天可能会新增要检测的目标种类等等。我们不追求AI能自主解决所有问题但是AI算法应该有一个规范操作流程让不懂AI的人能够遵循这个流程新增他们想要的需求、解决平时遇到的问题这样才能让AI真正平民化解决实际问题。对于学术界必须尽快定义出符合真实场景的终身学习setting建立起相应的benchmark推动这一方向的研究。在域间差异明显的情况下解决大数据和小样本的冲突。这又是CV和NLP的不同点NLP已经基本不用考虑预训练和下游任务的域间差异性因为语法结构和常见单词完全一样而CV则必须假设上下游数据分布显著不同以致于上游模型未经微调时在下游数据中无法抽取底层特征被ReLU等单元直接滤除。因此用小数据微调大模型在NLP领域不是大问题现在的主流是只微调prompt但是在CV领域是个大问题。在这里设计视觉友好的prompt也许是个好方向但是目前的研究还没有切入核心问题。方向3无限细粒度视觉识别任务关于无限细粒度视觉识别以及类似的概念目前还没有很多相关的研究。所以我以自己的思路来叙述这个问题。我在今年VALSE报告上对已有方法和我们的proposal做了详细解读。以下我给出文字叙述更详细的解读请参考我的专题文章或者我在VALSE上做的报告[2,3]首先我要阐述无限细粒度视觉识别的含义。简单地说图像中包含的语义信息非常丰富但不具有明确的基本语义单元。只要人类愿意就可以从一张图像中识别出越来越细粒度的语义信息如下图所示而这些信息很难通过有限而规范的标注即使花费足够多的标注成本形成语义上完整的数据集供算法学习。▲即使如ADE20K这样的精细标注数据集也缺少了大量人类能够识别的语义内容我们认为无限细粒度视觉识别是比开放域视觉识别更难也更加本质的目标。我们调研了已有识别方法将其分为两类即基于分类的方法和语言驱动的方法并论述它们无法实现无限细粒度的理由。基于分类的方法这包括传统意义上的分类、检测、分割等方法其基本特点是给图像中的每个基本语义单元图像、box、mask、keypoint等赋予一个类别标签。这种方法的致命缺陷在于当识别的粒度增加时识别的确定性必然下降也就是说粒度和确定性是冲突的。举例说在ImageNet中存在着“家具”和“电器”两个大类显然“椅子”属于“家具”而“电视机”属于“家电”但是“按摩椅”属于“家具”还是“家电”就很难判断——这就是语义粒度的增加引发的确定性的下降。如果照片里有一个分辨率很小的“人”强行标注这个“人”的“头部”甚至“眼睛”那么不同标注者的判断可能会不同但是此时即使是一两个像素的偏差也会大大影响IoU等指标——这就是空间粒度的增加引发的确定性的下降。语言驱动的方法这包括CLIP带动的视觉prompt类方法以及存在更长时间的visual grounding问题等其基本特点是利用语言来指代图像中的语义信息并加以识别。语言的引入确实增强了识别的灵活性并带来了天然的开放域性质。然而语言本身的指代能力有限想象一下在一个具有上百人的场景中指代某个特定个体无法满足无限细粒度视觉识别的需要。归根结底在视觉识别领域语言应当起到辅助视觉的作用而已有的视觉prompt方法多少有些喧宾夺主的感觉。上述调研告诉我们当前的视觉识别方法并不能达到无限细粒度的目标而且在走向无限细粒度的路上还会遭遇难以逾越的困难。因此我们我们想分析人是如何解决这些困难的。首先人类在大多数情况下并不需要显式地做分类任务回到上述例子一个人到商场里买东西不管商场把“按摩椅”放在“家具”区还是“家电”区人类都可以通过简单的指引快速找到“按摩椅”所在的区域。其次人类并不仅限于用语言指代图像中的物体可以使用更灵活的方式如用手指向物体完成指代进而做更细致的分析。结合这些分析要达到无限细粒度的目标必须满足以下三个条件。开放性开放域识别是无限细粒度识别的一个子目标。目前看引入语言是实现开放性的最佳方案之一。特异性引入语言时不应被语言束缚而应当设计视觉友好的指代方案即识别任务。可变粒度性并非总是要求识别到最细粒度而是可以根据需求灵活地改变识别的粒度。在这三个条件的牵引下我们设计出了按需视觉识别任务。与传统意义上的统一视觉识别不同按需视觉识别以request为单位进行标注、学习和评测。当前系统支持两类request分别实现了从instance到semantic的分割、以及从semantic到instance的分割因而两者结合起来就能够实现任意精细程度的图像分割。按需视觉识别的另一个好处在于在完成任意数量的request之后停止下来都不会影响标注的精确性即使大量信息没有被标注出来这对于开放域的可扩展性如新增语义类别有很大的好处。具体细节可以参看按需视觉识别的文章链接见上文。▲统一视觉识别和按需视觉识别的对比在完成这篇文章之后我还在不断思考按需视觉识别对于其他方向的影响是什么。这里提供两个观点按需视觉识别中的request本质上是一种视觉友好的prompt。它既能够达到询问视觉模型的目的又避免了纯语言prompt带来的指代模糊性。随着更多类型的request被引入这个体系有望更加成熟。按需视觉识别提供了在形式上统一各种视觉任务的可能性。例如分类、检测、分割等任务在这一框架下得到了统一。这一点可能对视觉预训练带来启发。目前视觉预训练和下游微调的边界并不清楚预训练模型究竟应该适用于不同任务还是专注于提升特定任务尚无定论。然而如果出现了形式上统一的识别任务那么这个争论也许就不再重要。顺便说下游任务在形式上的统一也是NLP领域享有的一大优势。在上述方向之外我将CV领域的问题分为三大类识别、生成、交互识别只是其中最简单的问题。关于这三个子领域简要的分析如下在识别领域传统的识别指标已经明显过时因此人们需要更新的评价指标。目前在视觉识别中引入自然语言是明显且不可逆的趋势但是这样还远远不够业界需要更多任务层面的创新。生成是比识别更高级的能力。人类能够轻易地识别出各种常见物体但是很少有人能够画出逼真的物体。从统计学习的语言上说这是因为生成式模型需要对联合分布进行建模而判别式模型只需要对条件分布进行建模前者能够推导出后者而后者不能推导出前者。从业界的发展看虽然图像生成质量不断提升但是生成内容的稳定性不生成明显非真实的内容和可控性仍有待提升。同时生成内容对于识别算法的辅助还相对较弱人们还难以完全利用虚拟数据、合成数据达到和真实数据训练相媲美的效果。对于这两个问题我们的观点都是需要设计更好、更本质的评价指标以替代现有的指标生成任务上替代FID、IS等而生成识别任务需要结合起来定义统一的评价指标。1978年计算机视觉先驱David Marr设想视觉的主要功能在于建立环境的三维模型并且在交互中学习知识。相比于识别和生成交互更接近人类的学习方式但是现在业界的研究相对较少。交互方向研究的主要困难在于构建真实的交互环境——准确地说当前视觉数据集的构建方式来源于对环境的稀疏采样但交互需要连续采样。显然要想解决视觉的本质问题交互是本质。虽然业界已经有了许多相关研究如具身智能但是还没有出现通用的、任务驱动的学习目标。我们再次重复计算机视觉先驱David Marr提出的设想视觉的主要功能在于建立环境的三维模型并且在交互中学习知识。计算机视觉包括其他AI方向都应该朝着这个方向发展以走向真正的实用。总之在不同子领域单纯依靠统计学习特别是深度学习的强拟合能力的尝试都已经走到了极限。未来的发展一定建立在对CV更本质的理解上而在各种任务上建立更合理的评价指标则是我们需要迈出的第一步。结语经过几次密集的学术交流我能够明显地感受到业界的迷茫至少对于视觉感知识别而言有意思、有价值的研究问题越来越少门槛也越来越高。这样发展下去有可能在不久的将来CV研究会走上NLP的道路逐渐分化成两类一类使用巨量计算资源进行预训练不断空虚地刷新SOTA一类则不断设计出新颖却没有实际意义的setting以强行创新。这对于CV领域显然不是好事。为了避免这种事情除了不断探索视觉的本质、创造出更有价值的评测指标还需要业界增加宽容性特别是对于非主流方向的宽容性不要一边抱怨着研究同质化一边对于没有达到SOTA的投稿痛下杀手。当前的瓶颈是所有人共同面对的挑战如果AI的发展陷入停滞没有人能够独善其身。感谢看到最后。欢迎友善的讨论。后台回复关键词【入群】加入卖萌屋NLP、CV、搜推广与求职讨论群 [1] https://zhuanlan.zhihu.com/p/376145664[2] https://zhuanlan.zhihu.com/p/546510418[3] https://zhuanlan.zhihu.com/p/555377882

查看全文

http://www.pierceye.com/news/532522/