海南网站建设方案,企业网站源码搭建,wordpress响应瀑布主题,电子商务网站的整个建设流程知识图谱#xff08;KG#xff09;或任何图都包括节点和边#xff0c;其中每个节点表示一个概念#xff0c;每个边表示一对概念之间的关系。本文介绍一种将任何文本语料库转换为知识图谱的技术#xff0c;本文演示的知识图谱可以替换其他专业知识图谱。
一、知识图谱 知识… 知识图谱KG或任何图都包括节点和边其中每个节点表示一个概念每个边表示一对概念之间的关系。本文介绍一种将任何文本语料库转换为知识图谱的技术本文演示的知识图谱可以替换其他专业知识图谱。
一、知识图谱 知识图谱表示了任意两个实体之间的关系在这个结构中节点表示着诸如人、地点或事件之类的实体而边表示这些实体之间的连接。知识图谱还包含了第三个元素通常被称为谓词或边缘标签它阐明了关系的性质。 知识图谱就像智能网络一样显示了现实世界中的事物是如何连接的。它存储在图形数据库中并可视化为图形结构形成我们所说的“知识图”。用户可以像实时聊天机器人对话一样使用graph数据进行聊天。 知识图谱有多种用途。通过应用图算法我们可以计算任何节点的中心度从而深入了解一个概念在一系列工作中的重要性。分析连接和断开的概念集或确定概念群落可以提供对主题的全面理解。知识图谱使我们能够揭示看似不相关的概念之间的联系。 此外知识图谱可以用于图检索增强生成GRAG或GAG并促进与文档的对话交互。与具有固有局限性的传统版本的RAG相比这种方法通常产生优越的结果。例如依赖简单的语义相似性搜索进行上下文检索可能并不总是有效的尤其是当查询缺乏足够的上下文时或者当相关信息分散在庞大的文本语料库中时。
二、高级RAG体系结构 使用矢量数据库编码文档 使用sentence transformer将查询转换为向量 基于输入的查询从矢量数据库中检索相关上下文 利用查询和检索到的上下文来激发LLM。 三、RAG的局限性 RAG的一个主要缺点是它很难对复杂而细微差别的查询提供精确的响应。这种限制源于几个因素
理解用户意图RAG系统可能很难完全掌握用户查询背后的确切意图这是向LLM提供准确信息的关键方面。
对矢量嵌入的依赖性RAG在很大程度上依赖矢量嵌入来解释查询并将其与相关信息匹配。虽然这些嵌入是有效的但它们并不是万无一失的有时会导致理解查询上下文的不准确或过于简单化。
黑盒性质生成和比较矢量嵌入的过程是复杂的而且往往是不透明的。考虑到嵌入可能具有多个维度在语义搜索中破译其结构并理解其对相似性得分的影响是一个挑战。
通用训练数据嵌入模型通常在通用数据集上进行训练可能会错过某些查询所必需的特定细微差别或上下文。这可能导致在不同的内容片段之间绘制出表面上的相似之处。
四、知识图的类型
百科全书式KGs这种常见类型通过整合百科全书、数据库和专家见解等不同来源的信息来获取一般知识。例如Wikidata汇编了维基百科文章中的大量知识产生了大量多样的KGs其中包含数百万个实体和多种语言的关系。
常识性KGs这些KGs专注于日常知识包含有关对象、事件及其关系的信息。它们有助于理解我们日常生活中使用的基本知识通常是隐含的知识。例如ConceptNet包括常识性的概念和关系帮助计算机更自然地掌握人类语言。
特定领域的KGs这些KGs针对医学、金融或生物学等特定领域量身定制体积较小但高度精确和可靠。例如医学领域的UMLS包含详细的生物医学概念和关系以满足专业知识需求。
多模态KGs超越文本这些KGs包含图像、声音和视频用于图像-文本匹配或视觉问答等目的。像IMGpedia和MMKG这样的例子无缝地融合了文本和视觉信息以实现全面的知识表示。
五、搜索引擎中的用例 在搜索引擎领域KGs在提高搜索精度和相关性方面起着关键作用。通过理解KGs中嵌入的关系和上下文搜索引擎超越了单纯的关键词匹配深入研究了用户查询背后的意图和深刻意义。这种演变导致搜索结果不仅更直观而且与上下文相适应从根本上改变了我们在线获取信息的方式。 六、此应用程序的业务体系结构 数据来源于各种渠道包括非结构化数据、平面文件、带有XML或JSON数据库的结构化数据、传统SQL数据库等。通过从这些不同的数据源提取实体和关系来构建知识图谱。与ETL传统方法不同现在使用生成人工智能自动提取实体和关系还可以生成Neo4j cipher查询语言。最终将这些元素自动集成到Neo4j数据库中如下图的左侧所示。 生成人工智能通过将这些问题转换为数据库查询语言Cipher而发挥作用。对数据库执行查询获得结果然后进行另一轮生成人工智能处理将其转换回自然语言。 在中间层图数据库将基于语料库数据生成知识图谱schema并使用节点和边缘将其生成概念图。当您连接这些节点时您可以看到节点和边的关系如下所示。 七、构建知识图 构建知识图谱有如下四个步骤但这将根据业务需求和用例场景而有所不同。 从内容中识别和捕获概念和实体。这些元素表示系统中的节点 识别概念之间的关系形成结构的边缘 使用已识别的节点概念和边关系填充图形数据结构或图形数据库 将构建的图形可视化以获得分析见解和潜在的艺术享受。 语料库数据流图如下所示此流将根据您使用的数据库模型而有所不同。例如如果您使用图形数据库和数据科学数据库数据将存储在后端系统中。如果你使用内存中的占位符那么你可以使用Pandas DataFrame等。 在初始阶段首先对文本语料库进行分段每个片段被分配一个唯一的chunk_id。在此之后使用语言模型LLM从每个文本块中提取概念及其语义关系为这些关系分配W1的权重。需要注意的是同一对概念之间可能存在多种关系。 随后考虑同一文本块内的上下文相关度从而在概念之间建立权重为W2的附加关系。不同块中相同的概念对也可以建立权重为W2的附加关系。为了简化数据对相似的对进行分组它们的权重进行求和并把它们的关系进行拼接。结果是一个统一的表示每个不同的概念对都有一条边并以特定的权重和关系列表作为其标识符。 现在让我们对DataFrame的每个文本块运行这个GenAI模型并将json转换为Pandas DataFrame如下所示。 如果您使用的是后端数据库那么实体如下所示 每一行表示一对概念之间的关系充当连接图中两个节点的边。同一对概念之间可能存在多个边或关系。data frame的count表示权重任意设置为4。
八、将KG与LLM-RAG集成 知识图谱KGs与大型语言模型LLM的集成有望显著增强检索增强生成RAG过程从而改进知识表示和推理。这种协作方法有助于动态知识融合确保真实世界的知识保持最新并与文本空间不同。因此在推理过程中提供的信息仍然是最新的和相关的。
8.1 动态知识融合 将知识图谱KG视为大型语言模型LLM可访问的动态数据库用于查询最新的相关信息。事实证明这种方法在回答问题等任务中非常有效在这些任务中保持最新信息至关重要。这些知识与LLM的集成是通过高级架构实现的促进了文本标记和KG实体之间的深刻交互。这通过结构化的事实数据丰富了LLM的响应提高了生成信息的质量。
8.2 KG增强型RAG 使用知识图谱提升RAG技术包括在知识图谱中搜索相关事实并将其作为上下文信息呈现给LLM。这种方法能够生成精确、多样和真实的内容。例如当LLM的任务是对最近的事件做出回应时它可以在制定回复之前先咨询KG了解最新的事实。 此外LLM在制作准确描述KG信息的高质量文本方面发挥了重要作用。这对于产生真实的叙事、对话和故事具有巨大的潜力。无论是通过利用LLM的知识还是构建广泛的KG文本语料库这一过程都显著增强了KG到文本的生成特别是在训练数据有限的情况下。 8.3 LLM和KGs推理 LLM和KGs的协同效应在推理任务中变得尤为明显。使用LLM来解释文本问题并促进对KGs的推理建立了文本信息和结构信息之间的联系增强了可解释性和推理能力。这种连贯的方法适用于各个领域从对话系统中的个性化建议到通过结合领域知识图来加强特定任务的培训程序。
九、图形可视化 可视化阶段为这项练习增加了一个令人愉快的维度提供了一种独特的艺术满足感。我们已经确定了影响其大小的边权重为节点社区指定了颜色并建立了节点度来确定其大小。 探索放大和缩小、操作节点和边以及使用页面底部的滑块面板调整图形物理特性的灵活性。看看这个动态图是如何帮助提出有见地的问题并提高对主题的理解的
10、结论 当需要混合结构化和非结构化数据来推动RAG应用时知识图谱被证明是非常有效的。这篇博客文章指导你在graph DB中使用语料库、医学或任何文本上的GenAI函数构建知识图。GenAI/模型功能的输出结构整齐是提取有组织信息的理想选择。为了在图构建中获得LLM的最佳体验请详细定义图模式并在提取后加入实体消歧步骤。希望RAG-KG图支持图增强检索的发展为整体RAG管道的改进做出贡献。 将知识图谱KGs纳入检索增强生成RAG系统具有巨大的潜力。通过利用KGs中结构化和互连的数据我们可以大大提高现有RAG系统的推理能力。这种强有力的融合有望缓解当前RAG管道中固有的局限性提供更准确、更具上下文意识和细微差别的响应。 KGs是LLM可访问的强大信息库使他们不仅能够检索事实而且能够理解与这些事实相关的关系和潜在背景。这种理解水平的提高对于人工智能系统的发展至关重要该系统能够与用户进行更有效的交互提供不仅相关而且深刻见解的信息。
参考文献
[1] https://regupathit.medium.com/gen-ai-vilimiai-rag-with-knowledge-graph-8a8a6bdcd222
[2] https://knowledge.vilimin.com/
[3] https://vilimin.com/
[4] https://vilimingpt.com/