当前位置：首页 > news >正文

视频图站主题 wordpress淘宝客推广怎么做网站备案

news 2025/12/20 18:46:00

视频图站主题 wordpress,淘宝客推广怎么做网站备案,wordpress的修订,我的百度网盘登录入口ViT论文逐段精读【论文精读】这次李沐博士邀请了亚马逊计算机视觉专家朱毅博士来精读 Vision Transformer#xff08;ViT#xff09;#xff0c;强烈推荐大家去看本次的论文精读视频。朱毅博士讲解的很详细#xff0c;几乎是逐词逐句地讲解#xff0c;在讲解时把 ViT 相关… ViT论文逐段精读【论文精读】这次李沐博士邀请了亚马逊计算机视觉专家朱毅博士来精读 Vision TransformerViT强烈推荐大家去看本次的论文精读视频。朱毅博士讲解的很详细几乎是逐词逐句地讲解在讲解时把 ViT 相关领域的研究也都介绍了听完之后收获满满。 ViT 应该是过去一年计算机视觉领域影响力最大的一个工作。ViT 挑战了卷积神经网络在计算机视觉领域的绝对统治地位。ViT证明如果能在足够大的数据集上去训练那么就可以不需要卷积神经网络直接使用标准的 Transformer 也能把视觉问题解决好。ViT 不仅在计算机视觉领域挖了一个大坑同是它也打破了 CV 和 NLP 之间的壁垒在多模态领域也挖了一个大坑。可以说ViT 开启了计算机视觉新时代。 ViT 论文链接 https://arxiv.org/abs/2010.11929 1. 标题、摘要、引言、结论首先是论文标题论文标题的意思是一张图片等价于很多 16×1616\times1616×16 的单词Transformer 用于大规模图像识别。16×1616\times1616×16 是指将一张图片划分成若干个块patch每一个 patch 大小为 16×1616\times1616×16。这样一张图片就可以看作是若干个 patch 组成。这篇论文的作者还是蛮多的有12个作者可以看出这篇论文工作量确实很大论文作者全部来自于 Google。下面是论文摘要摘要写的很简洁总共只有4句话。尽管 Transformer 已经成为自然语言处理任务事实上的一种标准但是在计算机视觉上的应用还是非常有限。在计算机视觉领域注意力机制要么和卷积神经网络一起使用要么在保持原有网络结构不变的情况下替换局部的卷积运算例如 ResNet-50 中把其中每某一个残差块使用注意力机制替代。本文证明对卷积神经网络的依赖不是必要的原始的 Transformer 可以直接应用在一系列小块图片上并在分类任务上可以取得很好的效果。在大的数据集上预训练的模型迁移到中小型图片数据集上 (ImageNet, CIFAR-100, VTAB等)与目前最好的卷积神经网络相比ViT 可以取得非常优秀的结果并且需要更少的训练资源。但是仍然需要2500天 TPUv3 训练天数目前的深度学习真的是进入到了大力出奇迹的时刻在计算资源上学术界很难能比过工业界。在介绍引言之前朱毅博士首先介绍了 Transformer 用在计算机视觉上的一些难处。主要是如何将2D图片数据转换成 1D数据目前 BERT 能够处理的序列长度是512如果直接将图像像素转换成 1D。即使是 224×224224\times224224×224 大小的图片其序列长度也有5万多计算复杂度将是 BERT 的100倍如果是检测或分割任务那计算复杂度就更大了。引言前两段主要是交代故事背景在自然语言处理任务上通常会在大的训练集上去训练 Transformer然后在小的特定任务数据集上去微调。目前可以训练含有上千亿参数的 Transformer 模型且随着模型和数据集的增加并没有出现饱和现象。在计算机视觉领域卷积神经网络仍然占据主导。最近一些新的研究有的将自注意力机制和卷积神经网络结合起来训练即在较小的特征图上使用自注意力机制这是一种减少序列长度的方法还有的是使用局部图片作为输入然后使用 Transformer也有论文研究分别在图像高度或宽度上使用 Transformer这些都是为了减少序列长度。但以上方法都存在不足都是针对特定任务来使用在大规模图像识别数据集像 ResNet 这样的网络仍然是主流。下面作者介绍如何将 Transformer 用在计算机视觉。首先将图像划分为一个个 patch然后使用全连接网络进行线性变换这样就得到了 patch 线性变换序列最后将 patch 输入到 Transformer这里可以将 patch 看成是一个个单词。举个例子假设图像大小是 224×224224 \times 224224×224划分成 16×1616\times1616×16 的 patch 则最终会有196个 patch。可以看到整篇论文处理流程还是很简洁的基本上没有什么技术难点。紧接着作者指出Transformer 与卷积神经网络相比缺少归纳偏置例如相关性locality和平移不变性translation equivariance。因此为了得到更好的结果需要有足够多的训练数据最后一段就是介绍模型效果果然效果拔群。下面是论文结论部分。第一段总结本文做的工作图片处理成 patch 序列然后使用 Transformer 去处理取得了接近或超过卷积神经网络的结果同时训练起来也更便宜。第二段是未来展望一是和目标检测和分割结合起来ICCV 2021 最佳论文 Swin Transformer 就证明了 Transformer 在检测和分割任务也能取得很好的效果另一个是自监督预训练因为本文是有监督预训练自监督和有监督预训练还存在着很大的差距最近何恺明博士的新论文 MAE 就研究了这个问题最后是更大规模的 ViT半年之后作者团队就提出了 ViT-G。 2. 相关工作下面是相关工作总共有6段。第1段说2017年 Transformer 被提出来以后已经成为许多 NLP 任务最先进的方法代表性的工作有 BERT完形填空去预测缺少的词和 GPT语言模型预测下一个词。第2段是说将自注意力用于图像处理需要每个像素和每个像素两两交互复杂度与像素数量平方成正比。因此在图像处理中使用 Transformer 需要做一些近似处理包括在局部图像块用自注意力、使用稀疏的 Transformer 以及在轴上使用注意力这些方法都取得了很好的效果但是需要复杂的工程能力去实现硬件加速。接着作者介绍和本文最接近的相关工作ICLR 2020 的这篇论文使用的 patch 大小是 2×22\times22×2处理的数据集是 CIFAR-10 数据集和 ViT 很接近也是从头到尾使用注意力机制来处理。和这篇论文不同之处是我们的工作显示更大规模的预训练可以使得 Transformer 能取得比 CNN 更好的效果同时我们使用了更大的 patch 我们的模型可以处理中等尺度的图片。下面是自注意力机制和 CNN 结合的一些工作包括图片分类、物体检测、视频处理、文本视频任务等。另一个最近的工作是 iGPT, 将 Transformer 用于生成式模型在 ImageNet 上可以取得 72%的准确率。我们的工作研究了更大规模的数据集主要是 ImageNet-21k 和 JFT-300M 。 3. ViT模型、实验下面是 ViT模型介绍模型总览图如下图所示。输入为一张图片将图片划分成9个 patch划分后的 patch 序列经过线性投射层变换得到 patch embedding 与此同时对这些 patch 还添加了 position embedding这样每一个 token 既包括图像信息又包括了位置信息。这里作者还借鉴了 BERT 添加了 class embedding 也包括位置信息最终将这些 token 输入到 Transformer最后 class embedding 对应的输出经过 MLP Head 进行类别判断整个模型包括 LLL 个 Transformer。下面是具体实现假设图像大小是 224×224×3224 \times 224 \times 3224×224×3划分成 16×16×316\times16\times316×16×3 的 patch 则最终会有196个 patch。将每一个 patch 拉平则每一个 patch 维度变为 768。线性投射层使用 E\mathbf{E}E 表示维度为 768×768D768 \times 768\mathbf{D}768×768DD\mathbf{D}D 是参数。则经过线性变换后输出为 XE196×768×768×768196×768\mathbf{X}\mathbf{E}196\times768\times768\times768196\times768XE196×768×768×768196×768输出为196个 token每个 token 维度为768。因为还有一个 class token位置编码维度为 1×7681\times7681×768和 patch embedding直接相加sum则最终输入维度为 197×768197\times768197×768。下面是论文原文介绍首先是 patch embedding 的处理然后是 class embedding 的处理最后是 position embedding 的处理。在附录里作者比较了各种 position embedding 的实验结果以及 class token 的使用对最终分类结果的影响。为了减少对 Transformer 的改动作者这里还是使用了 class token 和 1D position embedding。下面是公式描述xp1\mathrm{x}_{p}^1xp1 是原始图像块E\mathrm{E}E 是线性投射层Epos\mathrm{E}_{pos}Epos 是位置编码xclass\mathrm{x}_{class}xclass 是类别块经过 LLL 个 Transformer 处理后最后根据 zL0\mathbf{z}_L^0zL0 去做类别判断。 z0[xclass ;xp1E;xp2E;⋯;xpNE]Epos ,E∈R(P2⋅C)×D,Epos∈R(N1)×Dzℓ′MSA⁡(LN⁡(zℓ−1))zℓ−1,ℓ1…LzℓMLP⁡(LN⁡(zℓ′))zℓ′,ℓ1…LyLN⁡(zL0)\begin{aligned} \mathrm{z}_{0} \left[\mathrm{x}_{\text {class }} ; \mathrm{x}_{p}^{1} \mathrm{E} ; \mathrm{x}_{p}^{2} \mathrm{E} ; \cdots ; \mathrm{x}_{p}^{N} \mathrm{E}\right]\mathrm{E}_{\text {pos }}, \mathbf{E} \in \mathbb{R}^{\left(P^{2} \cdot C\right) \times D}, \mathbf{E}_{p o s} \in \mathbb{R}^{(N1) \times D} \\ \mathrm{z}_{\ell}^{\prime} \operatorname{MSA}\left(\operatorname{LN}\left(\mathrm{z}_{\ell-1}\right)\right)\mathrm{z}_{\ell-1}, \ell1 \ldots L \\ \mathrm{z}_{\ell} \operatorname{MLP}\left(\operatorname{LN}\left(\mathbf{z}_{\ell}^{\prime}\right)\right)\mathbf{z}_{\ell}^{\prime}, \ell1 \ldots L \\ \mathrm{y} \operatorname{LN}\left(\mathbf{z}_{L}^{0}\right) \end{aligned} z0zℓ′zℓy[xclass ;xp1E;xp2E;⋯;xpNE]Epos ,MSA(LN(zℓ−1))zℓ−1,MLP(LN(zℓ′))zℓ′,LN(zL0)E∈R(P2⋅C)×D,Epos∈R(N1)×Dℓ1…Lℓ1…L 下面是归纳偏置介绍主要是所有 patch 的空间关系都需要从头去学另一个是将注意力机制和 CNN 特征图结合起来一起使用构建混合模型最后是微调模型以及对大尺度图片的处理。下面是论文实验部分。这里作者主要设计了三种不同大小的 ViT 模型如下表所示。第一个实验结果是作者分别将ViT 模型在不同的数据集上去预训练然后在基准数据集上去比较虽然从表中看到 ViT-H/14 比卷积模型 BiT-L 准确率高得并不多但是从训练天数可以看到ViT-H/14 需要的训练天数是 BiTL-L 的 14\frac{1}{4}41 左右训练代价更小。图3、4 表明随着预训练数据集的增大Transformer 的效果会渐渐好于 ResNet这表明 Transformer 有很好的可扩展性。图5表示在同样运算能力下Transformer 的效果也是好于 ResNet。下面是一些可视化结果中间这张图可以看到虽然本文使用的是 1D 的位置编码但是网络仍然能学到不同 patch 位置间关系右边这张图则表示 Transformer 学习能力可以看到随着网络越深获取全局信息能力越强。最后作者也做了一个小的自监督实验证明了 Transformer 是优于卷积神经网络最近大火的 MAE 也证明了这一点。最后简单总结下本文写作简洁明了实验也是很详尽的在计算机视觉领域挖了一个大坑当然朱毅博士这次的讲解也是酣畅淋漓思路很清晰看下来受益匪浅。

查看全文

http://www.pierceye.com/news/613093/