犀牛网站建设公司,宾馆酒店网站建设方案,phpmysql网站设计,北京网站建设公司网络营销外包网络建站报价如今LLM(大语言模型)的问答与生成能力已被大家所熟知#xff0c;很多用户已经亲身体会到了LLM为工作、生活带来的变革。其实#xff0c;作为NLP(自然语言处理)的集大成者#xff0c;LLM能为我们提供的能力不限于此。其基本胜任传统NLP技术所能承担的所有任务。如#xff1a… 如今LLM(大语言模型)的问答与生成能力已被大家所熟知很多用户已经亲身体会到了LLM为工作、生活带来的变革。其实作为NLP(自然语言处理)的集大成者LLM能为我们提供的能力不限于此。其基本胜任传统NLP技术所能承担的所有任务。如分词、语义识别、命名实体识别、实体关系识别等。其中命名实体识别、实体关系识别在NLP任务中属于难度较大的任务。传统的NLP方案一般针对不同的业务领域都要进行专门的模型训练从而提高识别率但真实效果也往往不尽如人意。这也使得需要以这类技术为基础的业务发展速度受到了一定的限制。 一个比较常见的实体关系识别场景是构建行业知识图谱。在构建知识图谱时需要从海量的行业知识文档中提取有效的实体及其实体关系而后进行数据预处理、实体对齐等操作。在今年以OpenAI为代表的LLM席卷全球前笔者尝试了很多开源技术来进行实体关系的识别发现中文环境下百度的Paddle所展示出的效果最好的。但其能够识别的文本篇幅及质量仍让人感到些许遗憾。直到LLM出现在笔者视野里笔者开始尝试使用LLM来完成实体关系的识别结果令人感到兴奋。 测试时我们使用了如下的一段文字 帮我抽取“####”后内容中的黑客组织及其账号并输出为json格式 #### ATW 组织发布的“ATW-对华战争”帖 2021 年 10 月ATW 组织开始频繁活动不断在电报群组https://t.me/s/ATW2022Email:AgainstTheWestriseup.net备份 Email:apt49riseup.net、推特_AgainstTheWesthttps://mobile.twitter.com/_AgainstTheWest、Breadched账号AgainstTheWest等境外社交平台开设新账号扩大宣传途径并表现出较明显的亲美西方政治倾向多次声明“攻击目标是俄罗斯、白俄罗斯和中国、伊朗、朝鲜”、“愿意与美国、欧盟政府共享所有文件”、“愿受雇于相关机构”。 文本中的第一句是我们给LLM输入的提示(Prompt)信息要求其提取后续内容中的黑客组织及其账号然后将结果以Json格式输出。而“####”后的内容为一小段文字是LLM要处理的目标文本。下面让我们来看一看当把这段文字交给GPT它的输出表现吧。 以下是使用GPT 3.5(Old)时其模型的结果输出 { 组织名称: ATW, 账号: [{ 平台: 电报, 链接: https://t.me/s/ATW2022 },{ 平台: Email, 地址: AgainstTheWestriseup.net },{ 平台: 备份Email, 地址: apt49riseup.net },{ 平台: 推特, 账号: _AgainstTheWest, 链接: https://mobile.twitter.com/_AgainstTheWest },{ 平台: Breadched, 账号: AgainstTheWest }] } 当看到这个结果时令人眼前一亮。其不但分析出了黑客组织及其相关账号还为每个账号进行了平台划分。一定程度上超出了当时给其写提示时的期望输出。结果的条理性超过了一般人类的总结水平。而在这个基础上再使用程序进行自动化处理构建知识图谱就变的方便很多了。 笔者发现GPT 3.5升级以后同样的输入只能获得如下的输出了 { 黑客组织: ATW, 账号信息: { 电报群组: https://t.me/s/ATW2022, 电子邮箱: AgainstTheWestriseup.net, 备用电子邮箱: apt49riseup.net, 推特账号: _AgainstTheWest, 推特链接: https://mobile.twitter.com/_AgainstTheWest, Breadched账号: AgainstTheWest } } 这里的输出省去了对平台的扩展整理但更加符合输入的提示。虽无惊喜但更加稳定。为了获得类似升级前的效果我们修改提示的描述如下 帮我抽取“####”后内容中的黑客组织及其账号与账号平台并输出为json格式 可以获得如下输出 { 黑客组织: ATW, 账号: [ {平台: 电报群组, 用户名/链接: https://t.me/s/ATW2022}, {平台: Email, 用户名/链接: AgainstTheWestriseup.net}, {平台: 备份 Email, 用户名/链接: apt49riseup.net}, {平台: 推特, 用户名/链接: _AgainstTheWest, https://mobile.twitter.com/_AgainstTheWest}, {平台: Breadched, 用户名/链接: AgainstTheWest} ] } 从输出的信息可以看到我们希望获得的要素信息基本都被识别出来了只是在输出格式上有一定差别。我们可以通过编写处理程序解析这个Json数据获取有效的实体关系信息。但这种方式的灵活度稍差需要根据LLM的输出结果不断进行调整适配。一种更好的办法是在提示中给出Json格式的输出样例以确保LLM按照指定的格式输出结果方便后续的程序统一处理更加简单、方便。(注以上两种GPT 3.5版本的实验是通过TheB.AI网站完成的。如果使用OpenAI提供的ChatGPT由于其在获得提示后更倾向于输出Python脚本所以在提示的最后需额外加入”不需要给出代码”,以确保其能够正常输出Json结构的数据。) 从目前的实验结果看使用LLM进行实体关系的识别较之前的技术有了很大程度的提升。这种提升能大幅促进知识图谱等应用系统的构建效率及准确性。但在使用LLM的这种技术时需要注意不同的LLM在相同的提示和输入下返回的信息会有不同。使用者需要选取合适的LLM并尝试不同的Prompt确保LLM的结果符合预期。