当前位置：首页 > news >正文

wordpress轮播图大小怎么修改seo优化sem推广

news 2025/11/22 8:10:27

wordpress轮播图大小怎么修改,seo优化sem推广,陕西建设网站官网,html代码编写Kosmos-2: 在多模态大语言模型中引入基准和指代能力 FesianXu 20240304 at Baidu Search Team 前言之前笔者在博文中介绍过kosmos-1模型 [1]#xff0c;该模型脱胎于MetaLM采用『因果语言模型作为通用任务接口』的思想#xff0c;采用了多种形式的多模态数据进行训练得到。…Kosmos-2: 在多模态大语言模型中引入基准和指代能力 FesianXu 20240304 at Baidu Search Team 前言之前笔者在博文中介绍过kosmos-1模型 [1]该模型脱胎于MetaLM采用『因果语言模型作为通用任务接口』的思想采用了多种形式的多模态数据进行训练得到。而在本文将要介绍的kosmos-2中作者则尝试引入了基准grounding和指代referring能力使得多模态大语言模型的人机交互形式更加友好、灵活和多样。如有谬误请见谅并联系指出本文遵守CC 4.0 BY-SA版权协议转载请联系作者并注明出处谢谢。 ∇ \nabla ∇ 联系方式 e-mail: FesianXugmail.com github: https://github.com/FesianXu github page: https://fesianxu.github.io/ 知乎专栏: 计算机视觉/计算机图形理论与应用微信公众号机器学习杂货铺3号店在我们正式介绍kosmos-2之前我们首先了解下什么是指代referring功能和基准grounding功能如Fig 1所示这是百度app中的以图搜图功能用户拍摄一张图片此时用户可以对图中的多种物体进行画框随后用户可以选择对被框框中的物体进行识别、提问或者发起搜索等。这个功能使得用户在以图搜图的场景中可以更加灵活地和场景中的物体进行交互这便是所谓的指代功能。各位读者有兴趣可以自行在手机百度App上体验这个功能。 Fig 1. 百度搜索的以图搜图功能支持一定程度的指代功能通过画框显式筛选用户感兴趣的物体进行提问或者发起搜索。当然这种功能的一种最简单的实现思路就是对被框中的物体进行图片裁剪直接对裁剪后的图片进行处理显然这种方法将会丢失该框中物体和图片中其他物体的上下文关系。让我们举个例子如Fig 2 (a)所示如果对蓝色框中的物体进行提问如果只是对蓝色框中的雪人进行裁剪后喂到模型中处理就难以获得图片全局和被框中物体的上下文关联因此很难分析出『他身上的微光是篝火倒映的结果』这个结论。在这个过程中从原图中框定一些包围盒Bounding box, bbox通过提供这个包围盒的左上顶点坐标 ( x 0 , y 0 ) (x_0, y_0) (x0,y0)和右下角坐标 ( x 1 , y 1 ) (x_1, y_1) (x1,y1)即可。如Fig 2 (b)所示这个过程称之为指代 (Referring)而所谓的基准Grounding1则指的是模型的输出中会对不同实体同时输出其在图中的包围盒的坐标。Grounding也可以翻译成『接地』这让我们联想到了电子工程中的『地线』电压的大小都是针对于地线而言的因此『接地』『基准』可以理解为是为文本概念和视觉概念的对齐而这个对齐更为显式因为其要求模型提供了对应实体的包围盒坐标此时的『地线』就是图片中特定的包围盒了。 Fig 2. 基准功能和指代功能的解释和示例可以使得多模态大语言模型具有全局的视觉理解和更灵活的人机交互能力。如Fig 3所示本文要介绍的kosmos-2 [2] 正是一种通过构建特定的多模态数据引入了指代和基准能力的多模态大语言模型。作者在LAION-2B和COYO-700M数据集的基础上构建了基准图文对数据集GRounded Image-Text pairs, GRIT这种数据集是在图片图片文本描述成对数据的基础上拆解和重组图片的文本描述使得产生了不同粒度的文本片段如名词片段、指代表述等并通过基准物体识别模型如GLIP [3]产出不同粒度文本片段的包围盒通过这种方法形成了约9100万图片1.15亿文本片段1.37亿包围盒的GRIT数据集。将GRIT数据和Kosmos-1采用的多模态数据融合在一起训练得到了kosmos-2模型。 Fig 3. Kosmos-2的示意图其主要特点是引入了指代和基准能力。因此kosmos-2的主要升级点其实是GRIT数据集的构建我们着重关注下数据的构建细节。如Fig 4所示GRIT数据的构建主要包括两大步骤创建名词片段-包围盒成对样本给定一个图片-文本描述样本对文本描述样本进行名词片段提取同时采用物体识别模型对图片进行处理得到所有包围盒对提取好的名词片段和包围盒进行组建得到名词片段-包围盒成对样本。注意到作者舍弃了抽象的名词片段如love, “time”, freedom等这些抽象的概念容易带了噪声。产出指代表述-包围盒成对样本只是名词片段无法对一些复杂、组合概念进行描述因此可以考虑对名词进行一些组合构建出所谓的指代表述referring expression文本本文通过SpaCy对文本进行依存关系树dependency tree解析然后依次递归每个名词片段的子节点然后将递归的子节点的词和该名词进行拼接得到扩展。举个具体的例子如下所示。 a dog in a field of flowers的依存关系树由SpaCy 3.6.1生成。dog ___|____ | in | | | field | ____|______ | | of | | | a a flowers1. 以dog为中心进行扩展 a dog in a field of flowers 2. 以field为中心进行扩展 a field of flowers 3. 以flowers为中心进行扩展flowers为了减少冗余作者只保留了那些不被其他指代表述或者名词片段包含的部分以刚才的扩展为例子作者保留了a dog in a field of flowers而舍弃了a field of flowers和a field of flowers。然后将a dog的包围盒赋值给了最终保留下的a dog in a field of flowers。整个过程如Fig 4所示。 Fig 4. GRIT数据集构建流程主要由两大步骤构成名词片段-包围盒成对数据提取、指代表述-包围盒成对数据组建。在模型方面kosmos-2沿用了kosmos-1的模型结构和训练范式但是可以提供视觉回答以输出图片中包围盒坐标的形式提供也可以提供视觉输入和包围盒输入。此处的包围盒输入和输出都是左上角坐标和右下角坐标的形式为了将训练目标统一到自回归生成有必要将连续的坐标离散化到离散的token形式。一种可行的方法是将一个长宽分别为 W W W和 H H H的图片均匀划分到 P × P P \times P P×P的分块patch中每一个分块大小为 ( W / P ) × ( H / P ) (W / P) \times (H / P) (W/P)×(H/P)像素。对于每个分块而言给它赋予一个唯一的token id采用每个分块的中心像素的坐标代表整个分块的左边。最终在整个词表中将会新增 P × P P \times P P×P个新的包围盒『词』至此包围盒的输入输出和文本输入输出便是打平了。此时一个包围盒的输入或输出如boxloc1loc2/boxloc1和loc2表示左上角和右下角分块的token id而box和/box则是特殊标记表示了包围盒的开始和结束。如果一个文本片段包含了多个包围盒则通过delim这个特殊标记进行连接最终形式如boxloci_1loci_2delim...locj_1locj_2/box。然后以类似于书写markdown文档超链接的形式给文本片段添加包围盒如p text span /pboxloc1loc2/box其中的p和/p是特殊标记表示了需要提供基准的文本片段。最终一个完整的输入如下所示其中的s和/s表示整个序列的开始和结束而image和/image则表示了提供的视觉向量的开始和结束grounding 也是一个特殊标记用于告诉模型将文本输出进行视觉基准这是因为在训练时候同时包含有纯文本数据、图文对数据和图文交织数据需要grounding 这个特殊标记告诉模型需要进行文本输出基准了。 s image Image Embedding /image grounding p It /p box loc44 loc863 /box seats next to p a campfire /p box loc4 loc1007 /box /s在kosmos-1的纯文本数据、图文交织数据、图文对数据的基础上作者引入了GRIT基准图文数据损失计算只对离散的token进行如文本token和包围盒位置token而略过特殊标记。在实验中作者将 P 32 P32 P32因此一共新增有 32 × 32 1024 32 \times 321024 32×321024个包围盒位置token一个训练batch size包含了419k个token其中185k个token来自于文本数据集215k来自于原始图文对数据和基准图文数据19k个来自于图文交织数据。作者在实验部分验证了模型的基准和指代能力同时给出了不少测试结果笔者没看到有需要特别注意的就不在这里贴出来了有兴趣的读者自行去翻阅原文即可。笔者看来从MetaLM到kosmos-1再到kosmos-2其实模型结构和训练范式并没有变化优化的点主要还是各种多模态数据的构建上这其实也启示我们在大模型年代如何构建更好更合适的数据可能比魔改模型结构更有收益数据采集和清洗是一种艺术也许我们应该给予数据更多的关注和研究。 Reference [1]. https://blog.csdn.net/LoseInVain/article/details/136428429, 《Kosmos-1: 通用接口架构下的多模态大语言模型》 [2]. Peng, Zhiliang, et al. “Kosmos-2: Grounding Multimodal Large Language Models to the World.” arXiv preprint arXiv:2306.14824 (2023). aka Kosmos-2. [3]. Li, Liunian Harold, et al. “Grounded language-image pre-training.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. aka GLIP. 在深度学习领域“grounded” 通常指的是将模型的输出或表示与真实世界中的某些实体或概念相关联或对齐。这种关联可以为模型提供更丰富、更具解释性的信息并有助于提高其性能。当谈到“video grounded”时这通常意味着视频数据中的某些内容与模型的输出或中间表示之间存在某种形式的对齐或关联。例如在视频描述生成任务中模型可能会生成描述视频内容的文本。如果这些描述确实与视频中的实际事件、物体或动作相对应那么可以说模型在这方面是grounded的。简而言之“grounded” 在这里意味着模型不仅仅是生成一些看似合理但与真实内容无关的输出而是能够捕捉并与真实世界中的实体或事件建立联系。 ↩︎

查看全文

http://www.pierceye.com/news/2037/