当前位置: 首页 > news >正文

汕头网站制作怎么做极速建站 哪家好

汕头网站制作怎么做,极速建站 哪家好,青岛网站建设套餐报价,微信小程序购物商城LLM 如火如荼地发展了大半年#xff0c;各类大模型和相关框架也逐步成型#xff0c;可被大家应用到业务实际中。在这个过程中#xff0c;我们可能会遇到一类问题是#xff1a;现有的哪些数据#xff0c;如何更好地与 LLM 对接上。像是大家都在用的知识图谱#xff0c;现在… LLM 如火如荼地发展了大半年各类大模型和相关框架也逐步成型可被大家应用到业务实际中。在这个过程中我们可能会遇到一类问题是现有的哪些数据如何更好地与 LLM 对接上。像是大家都在用的知识图谱现在的图谱该如何借助大模型发挥更大的价值呢 在本文我便会和大家分享下如何利用知识图谱构建更好的 In-context Learning 大语言模型应用。 此文最初以英文撰写的而后我麻烦 ChatGPT 帮我翻译成了英文。下面是翻译的 prompt “In this thread, you are a Chinese Tech blogger to help translate my blog in markdown from English into Chinese, the blog style is clear, fun yet professional. I will paste chapters in markdown to you and you will send back the translated and polished version.” LLM 应用的范式 作为认知智能的一大突破LLM 已经改变了许多行业以一种我们没有预料到的方式进行自动化、加速和启用。我们每天都会看到新的 LLN 应用被创建出来我们仍然在探索如何利用这种魔力的新方法和用例。 将 LLM 引入流程的最典型模式之一是要求 LLM 根据专有的/特定领域的知识理解事物。目前我们可以向 LLM 添加两种范式以获取这些知识微调——fine-tune 和 上下文学习—— in-context learning。 微调是指对 LLM 模型进行附加训练以增加额外的知识而上下文学习是在查询提示中添加一些额外的知识。 据观察目前由于上下文学习比微调更简单所以上下文学习比微调更受欢迎在这篇论文中讲述了这一现象https://arxiv.org/abs/2305.16938。 下面我来分享 NebulaGraph 在上下文学习方法方面所做的工作。 Llama Index数据与 LLM 之间的接口 上下文学习 上下文学习的基本思想是使用现有的 LLM未更新来处理特定知识数据集的特殊任务。 例如要构建一个可以回答关于某个人的任何问题甚至扮演一个人的数字化化身的应用程序我们可以将上下文学习应用于一本自传书籍和 LLM。在实践中应用程序将使用用户的问题和从书中搜索到的一些信息构建提示然后查询 LLM 来获取答案。 ┌───────┐ ┌─────────────────┐ ┌─────────┐ │ │ │ Docs/Knowledge │ │ │ │ │ └─────────────────┘ │ │ │ User │─────────────────────────────────────▶ LLM │ │ │ │ │ │ │ │ │ └───────┘ └─────────┘在这种搜索方法中实现从文档/知识上述示例中的那本书中获取与特定任务相关信息的最有效方式之一是利用嵌入Embedding。 嵌入Embedding 嵌入通常指的是将现实世界的事物映射到多维空间中的向量的方法。例如我们可以将图像映射到一个64 x 64维度的空间中如果映射足够好两个图像之间的距离可以反映它们的相似性。 嵌入的另一个例子是 word2vec 算法它将每个单词都映射到一个向量中。例如如果嵌入足够好我们可以对它们进行加法和减法操作可能会得到以下结果 vec(apple) vec(pie) ≈ vec(apple apie)或者向量测量值 vec(apple) vec(pie) - vec(apple apie) 趋近于 0 |vec(apple) vec(pie) - vec(apple apie)| ≈ 0 类似地“pear” 应该比 “dinosaur” 更接近 “apple”|vec(apple) - vec(pear)| |vec(apple) - vec(dinosaur)| 有了这个基础理论上我们可以搜索与给定问题更相关的书籍片段。基本过程如下 将书籍分割为小片段为每个片段创建嵌入并存储它们当有一个问题时计算问题的嵌入通过计算距离找到与书籍片段最相似的前 K 个嵌入使用问题和书籍片段构建提示使用提示查询 LLM ┌────┬────┬────┬────┐ │ 1 │ 2 │ 3 │ 4 │ ├────┴────┴────┴────┤ │ Docs/Knowledge │ ┌───────┐ │ ... │ ┌─────────┐ │ │ ├────┬────┬────┬────┤ │ │ │ │ │ 95 │ 96 │ │ │ │ │ │ │ └────┴────┴────┴────┘ │ │ │ User │─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─▶ LLM │ │ │ │ │ │ │ │ │ └───────┘ ┌ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ┐ └─────────┘│ ┌──────────────────────────┐ ▲ └────────┼▶│ Tell me ....., please │├───────┘ └──────────────────────────┘ │ ┌────┐ ┌────┐ │ │ 3 │ │ 96 │ │ └────┘ └────┘ │ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ Llama Index Llama Index 是一个开源工具包它能帮助我们以最佳实践去做 in-context learning 它提供了各种数据加载器以统一格式序列化文档/知识例如 PDF、维基百科、Notion、Twitter 等等这样我们可以无需自行处理预处理、将数据分割为片段等操作。它还可以帮助我们创建嵌入以及其他形式的索引并以一行代码的方式在内存中或向量数据库中存储嵌入。它内置了提示和其他工程实现因此我们无需从头开始创建和研究例如《用 4 行代码在现有数据上创建一个聊天机器人》。 文档分割和嵌入的问题 嵌入和向量搜索在许多情况下效果良好但在某些情况下仍存在挑战比如丢失全局上下文/跨节点上下文。 想象一下当查询请告诉我关于作者和 foo 的事情在这本书中假设编号为 1、3、6、19-25、30-44 和 96-99 的分段都涉及到 foo 这个主题。那么在这种情况下简单地搜索与书籍片段相关的前 k 个嵌入可能效果不尽人意因为这时候只考虑与之最相关的几个片段比如 k 3会丢失了许多上下文信息。 ┌────┬────┬────┬────┐ │ 1 │ 2 │ 3 │ 4 │ ├────┴────┴────┴────┤ │ Docs/Knowledge │ │ ... │ ├────┬────┬────┬────┤ │ 95 │ 96 │ │ │ └────┴────┴────┴────┘而解决、缓解这个问题的方法在 Llama Index 工具的语境下可以创建组合索引和综合索引。 其中向量存储VectorStore只是其中的一部分。除此之外我们可以定义一个摘要索引、树形索引等以将不同类型的问题路由到不同的索引从而避免在需要全局上下文时错失它。 然而借助知识图谱我们可以采取更有意思的方法 知识图谱 知识图谱这个术语最初由谷歌在 2012 年 5 月提出作为其增强搜索结果向用户提供更多上下文信息的一部分实践。知识图谱旨在理解实体之间的关系并直接提供查询的答案而不仅仅返回相关网页的列表。 知识图谱是一种以图结构形式组织和连接信息的方式其中节点表示实体边表示实体之间的关系。图结构允许用户高效地存储、检索和分析数据。 它的结构如下图所示 现在问题就来了上面说过知识图谱能帮忙搞定文档分割和嵌入的问题。那么知识图谱到底能怎么帮到我们呢 嵌入和知识图谱的结合 这里的基本实现思想是作为信息的精炼格式知识图谱可切割的数据颗粒度比我们人工的分割的更细、更小。将知识图谱的小颗粒数据与原先人工处理的大块数据相结合我们可以更好地搜索需要全局/跨节点上下文的查询。 下面来做个题请看下面的图示假设提问同 x 有关所有数据片段中有 20 个与 x 高度相关。现在除了获取主要上下文的前 3 个文档片段比如编号为 1、2 和 96 的文档片段我们还从知识图谱中对 x 进行两次跳转查询那么完整的上下文将包括 问题“Tell me things about the author and x”来自文档片段编号 1、2 和 96 的原始文档。在 Llama Index 中它们被称为节点 1、节点 2 和节点 96。包含 “x” 的知识图谱中的 10 个三元组通过对 x 进行两层深度的图遍历得到 x - y来自节点 1x - a来自节点 2x - m来自节点 4x - b- c来自节点 95x - d来自节点 96n - x来自节点 98x - z - i来自节点 1 和节点 3x - z - b来自节点 1 和节点 95 ┌──────────────────┬──────────────────┬──────────────────┬──────────────────┐ │ .─. .─. │ .─. .─. │ .─. │ .─. .─. │ │( x )─────▶ y ) │ ( x )─────▶ a ) │ ( j ) │ ( m )◀────( x ) │ │ ▲ ─ │ ─ ─ │ ─ │ ─ ─ │ │ │ 1 │ 2 │ 3 │ │ 4 │ │ .─. │ │ .▼. │ │ │( z )◀────────────┼──────────────────┼───────────( i )─┐│ │ │ ◀────┐ │ │ ─ ││ │ ├───────┼──────────┴──────────────────┴─────────────────┼┴──────────────────┤ │ │ Docs/Knowledge │ │ │ │ ... │ │ │ │ │ │ ├───────┼──────────┬──────────────────┬─────────────────┼┬──────────────────┤ │ .─. └──────. │ .─. │ ││ .─. │ │ ( x ◀─────( b ) │ ( x ) │ └┼▶( n ) │ │ ─ ─ │ ─ │ │ ─ │ │ 95 │ │ │ 96 │ │ │ 98 │ │ .▼. │ .▼. │ │ ▼ │ │ ( c ) │ ( d ) │ │ .─. │ │ ─ │ ─ │ │ ( x ) │ └──────────────────┴──────────────────┴──────────────────┴────────────────┘显然那些可能很宝贵的涉及到主题 x 的精炼信息来自于其他节点以及跨节点的信息都因为我们引入知识图谱而能够被包含在 prompt 中用于进行上下文学习从而克服了前面提到的问题。 Llama Index 中的知识图谱进展 最初William F.H.将知识图谱的抽象概念引入了 Llama Index其中知识图谱中的三元组与关键词相关联并存储在内存中的文档中随后Logan Markewich还增加了每个三元组的嵌入。 最近的几周中我一直在与 Llama Index 社区合作致力于将 “GraphStore” 存储上下文引入 Llama Index从而引入了知识图谱的外部存储。首个知识图谱的外部存储是对接开源分布式图数据库 NebulaGraph目前在我的努力下已经实现了。 在实现过程中还引入了遍历图的多个跳数选项以及在前 k 个节点中收集更多关键实体的选项用于在知识图谱中搜索以获得更多全局上下文。上面提到的这些变更还在陆续完善中。 在大模型中引入 GraphStore 后还可以从现有的知识图谱中进行上下文学习并与其他索引结合使用这也非常有前景。因为知识图谱被认为具有比其他结构化数据更高的信息密度。 本文作为开篇讲述了一些知识图谱和 LLM 的关系。在后续的文章中将会偏向实操同大家分享具体的知识图谱和 LLM 的应用实践。 – 谢谢你读完本文 (///▽///) 欢迎前往 GitHub 来阅读 NebulaGraph 源码或是尝试用它解决你的业务问题 yo~ GitHub 地址https://github.com/vesoft-inc/nebula 想要交流图技术和其他想法请前往论坛https://discuss.nebula-graph.com.cn/
http://www.pierceye.com/news/649420/

相关文章:

  • 什么行业要做网站建设推广这些水墨网站设计欣赏
  • 渠道网站wap百度
  • 在网站上如何做天气预报栏wordpress 分类列表
  • 做网站需要投资多少钱做网站的销售团队
  • 苏州哪个公司做门户网站seo优化方案报价
  • 电力建设官方网站做网站送优化
  • 门户网站建设模式包括网站群和中企动力企业邮箱登陆首页
  • 做调查网站的问卷哪个给的钱高wordpress邮箱注册功能
  • 上海php网站开发基于php网站建设
  • 大丰专业做网站做旅游网站当地人服务赚钱吗
  • 长沙网站制作公司推荐seo关键词排名优化
  • 内蒙古住房与城乡建设部网站广州十大软件公司排名
  • 营销型网站 易网拓德阳做网站
  • 网站建设seo虾哥网络购物网站技术实施方案
  • 门户网站框架下载陕西省建设工会网站
  • 网站有信心做的更好做外贸到什么网站上发布比较好
  • wex5做网站wordpress页面的设置
  • 绍兴市建设银行网站网站建设的基本术语
  • 建筑企业网站模板免费下载seo 网站换程序
  • wordpress怎么做排名seo怎么样
  • 电商网站开发平台哪家好百度运营怎么做
  • 门户网站 源码网站建设推广公司范围
  • 网站字体大小wordpress用户登录页面
  • 影院禁止18岁以下观众入内宿迁新站seo
  • 龙岗网站设计机构网站开发开始阶段的主要任务包括( )。
  • 宿州公司网站建设教做世界美食的网站
  • 网站建设价格很 好乐云seo免费自学编程
  • 网站哪家做的好公共资源交易中心级别
  • html5网站开发工具自己做微信电影网站怎么做
  • 学院网站制度建设成品大香伊煮蕉免费在线