当前位置：首页 > news >正文

asp.net 创建网站百度营稍

news 2025/11/5 0:54:18

asp.net 创建网站,百度营稍,成都网站外包公司,南昌短视频代运营公司一、 CNN及其优势和局限性其他答主回答的角度和内容非常全面#xff0c;答主也从自己的角度谈谈这个问题。我们不妨先看一下CNN的结构。CNN依靠卷积拥有感受野#xff0c;具有了时移不变性。 1.1 CNN的局限性可以看到随着卷积层的增加#xff0c;feature maps上的一个…一、 CNN及其优势和局限性其他答主回答的角度和内容非常全面答主也从自己的角度谈谈这个问题。我们不妨先看一下CNN的结构。CNN依靠卷积拥有感受野具有了时移不变性。 1.1 CNN的局限性可以看到随着卷积层的增加feature maps上的一个像素点就包含更多的信息。这种感受野的增长依靠于卷积核大小和层数因此如果卷积核不算很大层级不够多那么其在处理有长距离依赖上的图像效果可能并不好。同样如果最后不处理到只剩一个像素那么feature maps上的任何一个像素点都不能处理全局信息。这就是CNN体系上的一个局限性。 1.2 CNN的优势尽管CNN有着其局限性但很显然这个局限性在某些情况下就会转为其优势。CNN的全局信息处理能力不足但其局部特征提取能力非常强大这种局部特征提取的能力在处理图像中的细节和纹理等局部特征上更为有效。同时卷积操作有助于减小参数量因为卷积核的参数被共享意味着同一个卷积核可以在整个输入图像的不同位置上进行特征提取。这种参数共享减少了网络的参数量降低了过拟合的风险并且使得模型更具有泛化能力。相比于全连接和transformer参数量是明显减小的。人类对外界的认知一般是从局部到全局、从片面到全面类似的在机器识别图像时也没有必要把整张图像按像素全部都连接到神经网络中在图像中也是局部周边的像素联系比较紧密而距离较远的像素则相关性较弱因此可以采用局部连接的模式将图像分块连接这样能大大减少模型的参数如下图所示标题二、 Transformer及其优势和局限性 Transformer本来是NLP领域的革命性模型随着其在多个benchmark上达到sota的效果首先是NLP领域刮起了Transformer结构的旋风。随后Transformer开始打破壁垒进入CV领域。我们先看ViT的结构图 ViT方法实现细节如上图所示整个模型我们可以将其分为4个部分假设输入图像选择为256x256x3 Linear Projection of Flattened Patches将CV任务图片转换为与NLP任务类似的序列PatchesExtra Learnable[class] Embedding And Position EmbeddingTransformer Encoder MLP Head部分结构我们可以看到图像被处理成了多个patch而这些patch经过映射之后再被送入到Multi-Head Attention的结构里面我们再看Multi-Head Attention的结构 2.1 Transformer的局限性很明显本来一个a要经过三个矩阵的处理变成q, k, v参数量明显上涨。然后两两计算qkv这无疑带来了巨大的计算量。这就引出了Transformer在参数量和计算量上的局限性需要比较多的计算资源这也是为什么会出现“Money is All you need”的这么一个讽刺文章了。如果图片比较大CNN也许能轻松处理但是Transformer就不一定了所以才引出了后面的Swin Transformer但是始终还会有高于CNN的计算量。因此Transformer想要处理高分辨率的图像也还是比较有难度的。由于参数量的增多这对数据量提出了比较高的要求在数据较少的情况下可能并不奏效。 2.2 Transformer的优势和CNN一样Transformer的局限性也可以转换成其优势就是能够有全局信息和处理长距离依赖的能力并且在足够的数据和计算资源下可以达到非常出色的效果这个在各种论文的结果上都可以得到验证。 Transformer的优势在NLP领域更是体现的淋漓尽致也带来了预训练模型的潮流。而继承于Transformer Decoder的GPT在自回归生成上又做到了让人眼前一亮的效果而后GPT又经过强化学习微调等技巧诞生出了现在的大模型现在已经进化到多模态的版本能用图像交互了目前尚不知道自回归会不会在CV领域闯出来大家可以多多关注CV领域未来的发展方向。三、 CNN和Transformer的互补实际上CNN和Transformer并不是水火不容的关系想起来本科操作系统和编译原理老师都说过的一句话没有过时的技术只是看什么样的应用场景某些场景下老技术也能焕发光彩。像另一位答主所说的先用CNN提取特征再用Transformer做后处理是比较合理的做法。先利用CNN的局部特征提取能力和参数共享特性将一些图像先进行一个提取降低像素量再用Transformer的高级抽象特征处理能力计算全局信息再利用全局信息去做特定的任务这是一个较为可行的方案。也有不少论文是将Transformer和CNN融合使用的。比如TransUNet 就是用上了这种思路对医学图像进行分割达到了不错的效果。还有一种思路是不管什么尺度都用CNNTransformer处理例如发表在MICCAI(CCF B)的UTNet 在Encoder部分除了第一层其他层都用卷积再加Transformer的方式进行处理。因此哪怕在学术界也不能说Transformer可以完全取代CNN完全不需要用二极管思维去看待任何一项技术。在工业界就更不用说了像各位大佬所说的Transformer在落地上有着比较大的困难总不能要求所有设备都搭载着高性能的GPU进行计算。总结上述一系列的分享相信大家也会有了自己的看法在这里答主再重复一下自己的结论其实也就是没有免费的午餐原理没有一个技术或者算法可以通用地解决所有问题当其在一个任务上表现得好的时候通常在另一个任务也许会不尽人意。粗暴地想用谁取代谁都不是一个合理的思想归根结底还是要对不同技术进行分析和理解取长补短相得益彰这也是一系列论文给我们证明的结论。希望大家如果觉得答主分

查看全文

http://www.pierceye.com/news/73094/