专业电商网站建设多少钱,石家庄网站建设浩森宇特,wordpress国外主题下载,做家装网站客户来源多吗来源#xff1a;AI科技评论公众号编译#xff1a;蒋宝尚、陈彩娴2020年#xff0c;通用模型产生了经济价值#xff0c;特别是GPT-3#xff0c;它的出现证明了大型语言模型具有惊人的语言能力#xff0c;并且在执行其他任务方面也毫不逊色。2021年#xff0c;OpenAI 联合… 来源AI科技评论公众号编译蒋宝尚、陈彩娴2020年通用模型产生了经济价值特别是GPT-3它的出现证明了大型语言模型具有惊人的语言能力并且在执行其他任务方面也毫不逊色。2021年OpenAI 联合创始人 Ilya Sutskever预测语言模型会转向视觉领域。他说“下一代模型或许可以针对文本输入从而编辑和生成图像。”听话听音OpenAI 践行了这一想法几个小时前OpenAI通过官方推特发布了两个崭新的网络一个叫DALL-E参见今天推送的头条能够通过给定的文本创建出图片一个叫CLIP能够将图像映射到文本描述的类别中。其中CLIP可以通过自然语言监督有效学习视觉概念从而解决目前深度学习主流方法存在的几个问题1.需要大量的训练数据集从而导致较高的创建成本。2.标准的视觉模型往往只擅长一类任务迁移到其他任务需要花费巨大的成本。3.在基准上表现良好的模型在测试中往往不尽人意。具体而言OpenAI从互联网收集的4亿(图像、文本)对的数据集在预训练之后用自然语言描述所学的视觉概念从而使模型能够在zero-shot状态下转移到下游任务。这种设计类似于GPT-2和GPT-3的“zero-shot”。这一点非常关键因为这意味着可以不直接针对基准进行优化同时表现出了优越的性能稳健性差距robustness gap缩小了75%性能和ResNet507相当。换句话说。无需使用其训练的128万个训练样本中的任何一个即可与原始ResNet-50 在 Image Net Zero-shot的精确度相匹配。如上图所示虽然两个模型在ImageNet测试集上的准确度相差无几但CLIP的性能更能代表在非ImageNet设置下的表现。CLIP网络中做了大量的工作是关于zero-shot 迁移的学习、自然语言监督、多模态学习。其实关于零数据学习的想法可以追溯到十年前但是最近在计算机视觉中火了起来。零数据学习的一个重点是利用自然语言作为灵活的预测空间从而实现泛化和迁移。另外在2013年斯坦福大学的Richer Socher通过训练CIFAR-10上的一个模型在词向量嵌入空间中进行预测并表明模型可以预测两个“未见过”的类别。Richer的工作提供了一个概念证明。CLIP是过去一年从自然语言监督中学习视觉表征工作中的一部分。CLIP使用了更现代的架构如Transformer包括探索自回归语言建模的Virtex研究掩蔽语言建模的ICMLM等等。1方法前面也提到CLIP训练的数据来源于互联网上4亿数据对。用这些数据CLIP需要完成的任务是给定一幅图像在32,768个随机抽样的文本片段中找到能够匹配的那一个。完成这个任务需要CLIP模型学会识别图像中的各种视觉概念并将概念和图片相关联。因此CLIP模型可以应用于几乎任意的视觉分类任务。例如如果一个数据集的任务是对狗与猫的照片进行分类而CLIP模型预测 一张狗的照片 和 一张猫的照片 这两个文字描述哪个更匹配。如上图所示CLIP网络工作流程预训练图编码器和文本编码器以预测数据集中哪些图像与哪些文本配对。然后将CLIP转换为zero-shot分类器。此外将数据集的所有类转换为诸如“一只狗的照片”之类的标签并预测最佳配对的图像。总体而言CLIP能够解决1.昂贵的数据集ImageNet中1400万张图片的标注动用了25,000名劳动力。相比之下CLIP使用的是已经在互联网上公开提供的文本-图像对。自我监督学习、对比方法、自我训练方法和生成式建模也可以减少对标注图像的依赖。2.任务单一CLIP可以适用于执行各种视觉分类任务而不需要额外的训练。3.实际应用性能不佳深度学习中“基准性能”与“实际性能”之间存在差距是一直以来的“痛”。这种差距之所以会出现是因为模型“作弊”即仅优化其在基准上的性能就像一个学生仅仅通过研究过去几年的试题就能通过考试一样。CLIP模型可以不必在数据上训练而是直接在基准上进行评估因此无法以这种方式来“作弊”。此外为了验证“作弊的假设”测量了CLIP在有能力“研究” ImageNet时性能会如何变化。当线性分类器根据CLIP的特性安装时线性分类器能够将CLIP在ImageNet测试仪上的准确性提高近10。但是在评估“鲁棒性”的性能时这个分类器在其余7个数据集的评估套件中并没有取得更好的平均表现。2优势1. CLIP非常高效CLIP从未经过滤的、变化多端的、极其嘈杂的数据中学习且希望能够在零样本的情况下使用。从GPT-2和GPT-3中我们可以知道基于此类数据训练的模型可以实现出色的零样本性能但是这类模型需要大量的训练计算。为了减少所需的计算我们专注研究算法以提高我们所使用方法的训练效率。我们介绍了两种能够节省大量计算的算法。第一个算法是采用对比目标contrastive objective将文本与图像连接起来。最初我们探索了一种类似于VirTex的图像到文本的方法但这种方法在拓展以实现最先进的性能时遇到了困难。在一些小型与中型实验中我们发现CLIP所使用的对比目标在零样本ImageNet分类中的效率提高了4到10倍。第二个算法是采用Vision Transformer这个算法使我们的计算效率比在标准ResNet上提高了3倍。最后性能最好的CLIP模型与现有的大规模图像模型相似在256个GPU上训练了2周。我们最初是尝试训练图像到字幕的语言模型但发现这种方法在零样本迁移方面遇到了困难。在16 GPU的日实验中一个语言在训练了4亿张图像后在ImageNet上仅达到16的准确性。CLIP的效率更高且以大约快10倍的速度达到了相同的准确度。2. CLIP灵活且通用由于CLIP模型可以直接从自然语言中学习许多视觉概念因此它们比现有的ImageNet模型更加灵活与通用。我们发现CLIP模型能够在零样本下执行许多不同的任务。为了验证这一点我们在30多个数据集上测量了CLIP的零样本性能任务包括细粒度物体分类地理定位视频中的动作识别和OCR等。其中学习OCR时CLIP取得了在标准ImageNet模型中所无法实现的令人兴奋的效果。比如我们对每个零样本分类器的随机非樱桃采摘预测进行了可视化。这一发现也反映在使用线性探测学习评估的标准表示中。我们测试了26个不同的迁移数据集其中最佳的CLIP模型在20个数据集上的表现都比最佳的公开ImageNet模型Noisy Student EfficientNet-L2出色。在27个测试任务的数据集中测试任务包括细粒度物体分类OCR视频活动识别以及地理定位我们发现CLIP模型学会了使用效果更广泛的图像表示。与先前的10种方法相比CLIP模型的计算效率也更高。3局限性尽管CLIP在识别常见物体上的表现良好但在一些更抽象或系统的任务例如计算图像中的物体数量和更复杂的任务例如预测照片中距离最近的汽车有多近上却遇到了困难。在这两个数据集上零样本CLIP仅仅比随机猜测要好一点点。与其他模型相比在非常细粒度分类的任务上例如区分汽车模型、飞机型号或花卉种类时零样本CLIP的表现也不好。对于不包含在其预训练数据集内的图像CLIP进行泛化的能力也很差。例如尽管CLIP学习了功能强大的OCR系统但从MNIST数据集的手写数字上进行评估时零样本CLIP只能达到88的准确度远远低于人类在数据集中的99.75精确度。最后我们观察到CLIP的零样本分类器对单词构造或短语构造比较敏感有时还需要试验和错误“提示引擎”才能表现良好。4更广的影响CLIP允许人们设计自己的分类器且无需使用任务特定的训练数据。设计分类的方式会严重影响模型的性能和模型的偏差。例如我们发现如果给定一组标签其中包括Fairface种族标签和少数令人讨厌的术语例如“犯罪”“动物”等那么该模型很可能将大约32.3%的年龄为0至20岁的人的图像化为糟糕的类别。但是当我们添加“儿童”这一类别时分类比率将下降到大约8.7。此外由于CLIP不需要任务特定的训练数据因此它可以更轻松地解锁某些任务。一些任务可能会增加隐私或监视相关的风险因此我们通过研究CLIP在名人识别方面的表现来探索这一担忧。对100个名人图像进行识别时CLIP实际分类的准确率最高为59.2%对1000个名人进行识别时准确率最高为43.3。值得注意的是尽管通过任务不可知的预训练可以达到这些效果但与广泛使用的生产级别模型相比该性能并不具有竞争力。5结论借助CLIP我们测试了互联网的自然语言上与任务无关的预训练这种预训练为NLP的最新突破提供了动力是否可以用来改善其他领域的深度学习性能。目前CLIP应用于计算机视觉所取得的效果令我们非常兴奋。像GPT家族一样CLIP在预训练期间学习了我们通过零样本迁移所展示的各种任务。CLIP在ImageNet上的表现也令人惊喜其中零样本评估展示了CLIP模型的强大功能。原文链接https://openai.com/blog/clip/未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”