当前位置: 首页 > news >正文

定制网站建设公司软文怎么优化网站

定制网站建设公司,软文怎么优化网站,wordpress认证系统,wordpress支持react深度学习自然语言处理 原创作者#xff1a;cola meme是一种现代的交流形式#xff0c;其模板具有基本的语义#xff0c;任何人都可以在社交媒体上发布它。由于机器学习系统没有足够的上下文来理解meme#xff0c;因为它比图像和文本有更丰富的内容#xff0c;所以机器学习… 深度学习自然语言处理 原创作者cola meme是一种现代的交流形式其模板具有基本的语义任何人都可以在社交媒体上发布它。由于机器学习系统没有足够的上下文来理解meme因为它比图像和文本有更丰富的内容所以机器学习系统很难处理meme。为了让这类系统理解meme这篇文章发布了一个相关知识库称之为Know Your Meme Knowledge Base(KYMKB)这个知识库由54,000多张图片组成。KYMKB包括流行的meme模板、每个模板的示例以及关于模板的详细信息。 论文A Template Is All You Meme 地址https://arxiv.org/pdf/2311.06649.pdf 介绍 模因是一种现代的交流形式能够以简洁的方式传达复杂的信息。这么说可能不太好理解举个例子像平时我们用的表情包、用来传递信息的网络热梗、甚至对于一个东西的定义这些都是meme的一种表现形式。在这篇文章中作者通过图片来体现meme的价值。 meme还可以定义为文化传播的单位或者模仿和复制的单位。但是所有的meme都具有指一群人共享的文化时刻的特征。尽管它们的内在基础是互联网文化但它们表现出典型的群体交流的社会语言学特征。因此对于那些不属于内部群体的人来说meme的含义可能会变得模糊这可能会使许多人难以理解更不用说机器了。 meme模板是常见的模式是文本和图像它们可以以不同的方式组合并且每个都有自己独特的含义其特定语义可以由发布的人定制。模板及其消息可以被图像引用但不能与该图像直接相关。如果不熟悉所讨论的模板可能无法理解模因的含义。例如在图1中左边的第一个和第二个图这两个模板传达了这样一种想法:男人的主体由于自己的世界观或有限的知识而误解了蝴蝶的客体。换言之第一张图表示NLP社区认为它可以使用ChatGPT来生成数据而第二张图表明ChatGPT可以利用NLP社区来获取数据第三张就是宝可梦的图片。为了理解meme我们不仅要识别模因中的实体还要识别模因使用的模板(如果有的话)。 模板meme模因指的是一个模因模板它通常是可重复使用的材料(文本、图像、音频等)以创建一个仍然基于模因模板语义的新实例。非模板模因可以是(视觉上的)双关语、笑话或强调不涉及模因模板不了解特定模因模板甚至模因的人也能理解。 Know Your Meme (KYM)互联网模因数据库是一个与模因相关的有价值的信息资源特别是模板模因。即使熟悉模因的人也可能不知道特定模板的基本语义。KYM中的模因条目提供了基本模板和有关它的附加信息如它的含义、来源、各种例子等。通过查看不熟悉的模板条目并查看其使用示例用户可以学习如何解释和使用模板本身来为其特定的通信需求创建新的实例。 因此本文创建并发布KYMKD一个通用数据库其中包含从KYM中抓取的Meme模板的图像和信息。作者假设关于模板模因和KYMKB的知识提供了之前工作中缺失的上下文可以帮助理解模因。为了证明KYMKB的价值和模板模因产生信号的显著性他们开发了一种模因分类方法——模板标签计数器(Template-Label Counter, TLC)。TLC是一个基于主体的分类器它根据模因向量表示之间的距离为模因分配模板。如果一个新模因是该模板的一个实例我们就可以将其最频繁的标签分配给它。作者发现TLC比与微调预训练模型相比具有竞争力同时计算效率也高得多。 KYMKB KYMKnow Your Meme可以被认为是模因的维基百科。用户创建带有模因模板和关于模因的文档信息的条目例如它的起源和含义并添加它的使用示例(参见图2的示例条目)。创建条目后社区会对其进行审查并最终批准。这个条目可以随着meme用法的演变而更新。模板实例对于理解模因很重要。在图2中我们看到可以通过覆盖文本和图像来更改模板以针对特定语义进行调整。现有的方法依赖OCR来提取文本或命名实体但这在许多情况下不起作用。为了解决这个问题我们创建了KYMKB一个模因模板、示例和有关模因使用的详细信息的集合。为了保证meme条目的质量我们从KYM抓取了经过社区确认的条目删除了5,220个基础模板和49,531个示例总共有54,751张图片。图3显示了我们知识库的结构其中所有文本数据(如about部分)都链接到模板并与本地位置一起记录在JSON文件中。然后该模板位于父目录中该子目录包含示例。平均而言每个模板有9.49个示例。 模板模因 本文假设基于检索的方法应该允许我们将基模板与真实环境中的模因相匹配允许我们通过考虑与基模板相连接的文本如KYMKB中的about部分来访问有关新模因的信息。为了证实这一点我们对知识库中编码的模板图像进行了最近邻查找。然后在五个现有的模因分类任务上查询它(见表1)。具体来说我们查询了500个最近邻并手动检查相似性。我们还研究了FigMemes使用CLIP作为编码器因为它是视觉和语言学习问题和模因的常用预训练模型。图4显示了我们的结果示例。FigMemes数据集中的模因可能是基模板或扭曲或裁剪的版本如图中的前两列也有可能是调整的模板实例如第3列。在FigMemes中与这个模板最接近的例子是海绵宝宝与愤怒的佩佩的融合。使用相似性度量和多个邻居查询KYMKB可以以about部分的形式检索到足够的信息将此模因解释为另类愤怒地表达嘲笑与创建FigMemes的域一致。 模板标签计数器 假设由于KYM由流行的模因模板组成模因数据集只不过是我们在KYMKB中收集的模板的定制实例。因此我们能够将一个新的模因与我们的模板进行比较并选择最相似的模板以获得之前方法中缺失的模因特定上下文。为了检验我们的假设我们认为数据集中一个模因的标签可以是其语义的表示例如有害vs中立。通过将KYMKB模板与数据集训练的模因匹配我们可以将该标签分配给该模板的任何其他实例即该数据集测试分割中的一个新的模因。 注入模因知识 TLC的第一步是编码所有的模因模板和可选的示例。我们再次选择通过CLIP编码和最近邻索引作为相似性度量。我们可以将其形式化为一个排名任务我们首先设置对模板的引用如图5的1所示 注入数据集知识 下一步是学习数据集的特性例如标记方案。我们对训练数据进行编码并查询近邻索引选择最近的模板并记录每个训练实例的标签。然后TLC将每个模板索引归约为该模板最频繁的标签如下所示:其中rank函数根据它们到查询向量的欧氏距离对KYMKB中的条目进行升序排序(参见图5中的(2))。 测试模因和数据集 最后一步就是先用CLIP编码测试数据再使用最近邻查找法。然后我们将从训练数据中获得的索引/模板的最频繁的标签分配给测试实例。如果我们发现在训练过程中没有看到模板我们会退回到训练数据中最频繁的标签(参见图5中的(3))。 超参数 当使用TLC时我们可以选择忽略模因本身将模板的about部分与新模因的OCR文本匹配。或者我们可以选择是考虑基模板还是考虑编码模因知识的模板和示例。我们也可以考虑多个邻居并选择其中最常见的模板或标签。不同的编码器例如不同版本的CLIP也可以使用。我们还可以使用多种模态将来自模板/示例和OCR文本的about部分分别与模板和新模因嵌入相结合。我们尝试连接两种模态的片段嵌入通过Hadamard乘积融合两者可以对两个向量进行归一化然后使用两种模态的平均值作为最终输入向量。 实验 我们将不同版本的TLC与五个模因任务报告的结果进行了对比包括FigMemes、MultiOff、MEMEX和Memotion 3 Task A/B。以Memotion 3为例用于测试划分的1500个模因标签是不公开的因此我们在分析中使用了训练集和验证集。以MEMEX为例在撰写本文时200个模因的验证分割也未公开。因此我们只考虑训练集和测试集的划分。 实验结果 TLC优于微调 我们比较了嵌入文本、编码模板、模板和示例。进一步提供了以前工作的最佳结果其中预训练模型对OCR文本、模因本身或两者的多模态表示进行了微调。我们注意到TLC优于多数类分类器。以Memotion 3 (B)为例多数分类器与多模态微调模型相比具有竞争力。如表2所示 Moremore! 随着考虑更多模式TLC的性能不断提高。从一个新模因中编码模板的about部分和OCR文本本身就很强大当我们添加模板和模因图像时性能提高了MultiOff的性能提高了10个百分点以上。将图像和文本连接起来往往是最强的TLC配置。我们将这解释为对我们的假设的支持即模因的基本语义在about部分中得到了解释也被模板捕获。通过从OCR中使用额外的模因特定信息我们可以自然地获得准确含义的更好表示。 I Love Democracy 只有在同时考虑模板和示例的情况下多邻居投票才能提高性能。我们在KYMKB中搜索了1到5个邻居来尝试估计一个新模因的模板我们找到了3到5个邻居从而为TLCT模板实例产生最强的分类。这与我们的探索性数据分析是一致的在KYMKB中查询多个模板为我们提供了足够的信息来解释一个融合了两个模板的新模因。当我们只考虑模板或只考虑文本时自然会导致多个不同模板的实例因此会有噪声标签。 Examples? Well yes, but actually no 基本模板足以编码模因知识并且比嵌入示例更有效。在MultiOff的情况下当我们只考虑模板而忽略示例时我们看到得分提高了两个以上。在大多数情况下TLCT模板值与TLCT模板实例值的差值不超过1个点。这创建了一个以模因知识为基础的强大模型只编码了现有图像的十分之一支持了模因数据集可以是KYMKB中收集的模板实例的说法。 Counting templates: GG EZ 在Memotion 3和MultiOff的情况下该方法比昂贵的大型模型训练更强大。通过利用模板模因的力量我们甚至不用尝试就可以获得多语言。对于FigMemesTLC与原文工作报告中的文本基线和视觉基线相比具有竞争力或更强。不同方法和模态的性能差异很大强调了任务的难度。 TLC? Sounds good, doesn’t work TLC在某些任务上表现不佳的原因有很多。可能是由于许多模因数据集是通过爬虫创建的并没有进行整理以删除非模因包括模因和图像。TLC假设新的模因属于一个模板但我们的预测对一张图片(它不是模因)没有意义。MEMEX问了一个只有MEMEX能回答的问题。MEMEX不是把模因和标签配对而是用一个模因和一个解释配对创建一个新任务其中标签是解释是否与模因相关。理解模因需要额外的背景但该方法不能应用于未包含在数据集中的模因因为它依赖于有一个解释。 Wait it’s more complex? Always has been TLC的优势和简单性指出了模因数据集创建过程中的一个问题。通过仅为给定模板提供最常见的标签我们假设模板只能传递固定的消息;例如在分类任务中这意味着模板只能是有害的或无害的。这与我们的论点一致即模板将模因基于基本语义但与可以调整模因含义的现实相矛盾。通过故意过度拟合大多数类别TLC是与花销更大的方法相比具有竞争力。这表明了模因模板的力量但从设计上看TLC无法解释新颖的模板而是利用了模因数据集的创建方式。 SOTA meme classifier? I missed the part where that’s my problem 这项工作的目标不是创建一个最先进的模因分类器而是提供一个资源以进一步了解模因并将缺失的模因模板添加到知识库中。TLC在某种意义上通过利用泄露的信息进行欺骗;它还没有学会解释模因而是正在利用被忽视的模板信号。 模因里面有什么 模因不仅仅是图像有时也有文本。以Leeroy Jenkins为例这个模板引用了YouTube上一个流行的视频在这个视频中《魔兽世界》中的一名玩家在大喊自己的名字Leeroy Jenkins时做出了一个鲁莽的决定这将导致一组玩家在与怪物的战斗中失败。这个模板的一个实例不仅仅是一些图像而是大喊Leeroy Jenkins或使用原始模板中的音频当执行鲁莽的行为时可能会产生负面后果。 尽管这个模板起源于2005年但近20年后它仍然被引用这表明模板的寿命很长。这个视频是模因的汇编但不是由静态图像(有时是文本)组成而是由音频和视频组成。这段视频已经有超过660万的观看次数。为了使我们的工作易于理解我们遵循了AI社区所聚合的模因的概念。例如TLC依赖于模因是图像的概念来进行分类但我们的方法旨在证明模板的有用性和知识库的缺陷。模板模因只是理解这种交流形式的冰山一角KYMKB提供了丰富的知识我们可以利用它来创建能够解释模因的系统。 总结 主要贡献 发布了KYMKB一个拥有54,000张模因相关图像及其信息的知识库提出了一种高效的基于多数样本的分类器TLC与更昂贵的方法具有竞争性或更强对TLC和KYMKB进行实验和分析以证明它们的潜力。 备注昵称-学校/公司-方向/会议(eg.ACL)进入技术/投稿群 idDLNLPer记得备注呦
http://www.pierceye.com/news/876257/

相关文章:

  • 如何获取网站域名证书刚刚北京传来重大消息
  • 找别人做淘客网站他能改pid吗现在中型公司做网站用的是什么框架
  • 泉州晋江网站建设费用海南建设银行官网招聘网站
  • 自己给公司做网站郑州工程建设信息网站
  • 单页网站建站外贸公司网站怎么设计更好
  • 滨州建设工程备案网站网站制作九江
  • 北京网站制作业务如何开展全屋整装定制
  • 网站seo博客刷百度关键词排名
  • 制作企业网站的代码馆陶专业做网站
  • 网站建设简介联系方式PHP 网站开发 重点知识
  • 网页设计网站排行榜浅谈一下网络营销的几个误区
  • 上海网站制作公司报价中国十大咨询公司
  • 软件开发和网站建设哪个好dede网站本地访问速度慢
  • 平安建设网站做写手哪个网站好
  • 服务器硬件影响网站速度网站链接优化
  • 商品网站建设格式最火的做网站源码语言
  • 商城建站系统多少钱商标网官方查询官网
  • 织梦网站怎么做备份昆明航空公司官方网站
  • 大什么的网站建设公司达州网站建设哪家好
  • 漳州网站建设优化房地产网站建设意义
  • 兰州酒店网站建设app推广联盟平台
  • 周边产品设计培训哪家好响应式网站做优化好吗
  • 互联网金融整站seo排名要多少钱
  • 阜宁县城乡建设局新的官方网站重庆智能网站建设哪里有
  • 做ppt常用的网站有哪些建设网络强国要有自己的技术
  • 保险网站有哪些保险网站网页设计与制作课程说明
  • 海外网站seo优化wordpress支持asp.net
  • 什么网站做企业邮箱服务单页网站cms
  • 做电商网站的框架结构图wordpress用户标签
  • 益阳做网站的公司濮阳新闻直播