当前位置：首页 > news >正文

怎么注销建设银行网站用户wordpress没有水印

news 2025/12/20 20:20:17

怎么注销建设银行网站用户,wordpress没有水印,wordpress 相册免费,芙蓉区网站建设随着大语言模型效果明显提升#xff0c;其相关的应用不断涌现呈现出越来越火爆的趋势。其中一种比较被广泛关注的技术路线是大语言模型#xff08;LLM#xff09;知识召回#xff08;Knowledge Retrieval#xff09;的方式#xff0c;在私域知识问答方面可以很好的弥补通…随着大语言模型效果明显提升其相关的应用不断涌现呈现出越来越火爆的趋势。其中一种比较被广泛关注的技术路线是大语言模型LLM知识召回Knowledge Retrieval的方式在私域知识问答方面可以很好的弥补通用大语言模型的一些短板解决通用大语言模型在专业领域回答缺乏依据、存在幻觉等问题。其基本思路是把私域知识文档进行切片然后向量化后续通过向量检索进行召回再作为上下文输入到大语言模型进行归纳总结。在这个技术方向的具体实践中知识库可以采取基于倒排和基于向量的两种索引方式进行构建它对于知识问答流程中的知识召回这步起关键作用和普通的文档索引或日志索引不同知识的向量化需要借助深度模型的语义化能力存在文档切分向量模型部署推理等额外步骤。知识向量化建库过程中不仅仅需要考虑原始的文档量级还需要考虑切分粒度向量维度等因素最终被向量数据库索引的知识条数可能达到一个非常大的量级可能由以下两方面的原因引起各个行业的既有文档量很高如金融、医药、法律领域等新增量也很大。为了召回效果的追求对文档的切分常常会采用按句或者按段进行多粒度的冗余存贮。这些细节对知识向量数据库的写入和查询性能带来一定的挑战为了优化向量化知识库的构建和管理基于亚马逊云科技的服务构建了如下图的知识库构建流程通过S3 Bucket的Handler实时触发Lambda启动对应知识文件入库的Glue job Glue Job中会进行文档解析和拆分并调用SageMaker的Embedding模型进行向量化通过Bulk方式注入到Amazon OpenSearch中去并对整个流程中涉及的多个方面包括如何进行知识向量化向量数据库调优总结了一些最佳实践和心得。知识向量化文档拆分知识向量化的前置步骤是进行知识的拆分语义完整性的保持是最重要的考量。分两个方面展开讨论。该如何选用以下两个关注点分别总结了一些经验 a. 拆分片段的方法关于这部分的工作Langchain作为一种流行的大语言模型集成框架提供了非常多的Document Loader和Text Spiltters其中的一些实现具有借鉴意义但也有不少实现效果是重复的。目前使用较多的基础方式是采用Langchain中的RecursiveCharacterTextSplitter属于是Langchain的默认拆分器。它采用这个多级分隔字符列表——[“\n\n” “\n” ” “ “”]来进行拆分默认先按照段落做拆分如果拆分结果的chunk_size超出再继续利用下一级分隔字符继续拆分直到满足chunk_size的要求。但这种做法相对来说还是比较粗糙还是可能会造成一些关键内容会被拆开。对于一些其他的文档格式可以有一些更细致的做法。 FAQ文件必须按照一问一答粒度拆分后续向量化的输入可以仅仅使用问题也可以使用问题答案 Markdown文件”#”是用于标识标题的特殊字符可以采用MarkdownHeaderTextSplitter作为分割器它能更好的保证内容和标题对应的被提取出来。 PDF文件会包含更丰富的格式信息。Langchain里面提供了非常多的Loader但Langchain中的PDFMinerPDFasHTMLLoader的切分效果上会更好它把PDF转换成HTML通过HTML的块进行切分这种方式能保留每个块的字号信息从而可以推导出每块内容的隶属关系把一个段落的标题和上一级父标题关联上使得信息更加完整。 b. 模型对片段长度的支持由于拆分的片段后续需要通过向量化模型进行推理所以必须考虑向量化模型的Max_seq_length的限制超出这个限制可能会导致出现截断导致语义不完整。从支持的Max_seq_length来划分目前主要有两类Embedding模型如下表所示这四个是有过实践经验的模型。模型名称 Max_seq_length paraphrase-multilingual-mpnet-base-v2(sbert.net) 128 text2vec-base-chinese(text2vec) 128 text2vec-large-chinese(text2vec) 512 text-embedding-ada-002(openai) 8192 这里的Max_seq_length是指Token数和字符数并不等价。依据之前的测试经验前三个模型一个token约为1.5个汉字字符左右。而对于大语言模型如chatglm一个token一般为2个字符左右。如果在切分时不方便计算token数也可以简单按照这个比例来简单换算保证不出现截断的情况。前三个模型属于基于Bert的Embedding模型OpenAI的text-embedding-ada-002模型是基于GPT3的模型。前者适合句或者短段落的向量化后者OpenAI的SAAS化接口适合长文本的向量化但不能私有化部署。可以根据召回效果进行验证选择。从目前的实践经验上看text-embedding-ada-002对于中文的相似性打分排序性可以但区分度不够集中0.7左右不太利于直接通过阈值判断是否有相似知识召回。另外对于长度限制的问题也有另外一种改善方法可以对拆分的片段进行编号相邻的片段编号也临近当召回其中一个片段时可以通过向量数据库的range search把附近的片段也召回回来也能保证召回内容的语意完整性。向量化模型选择前面提到四个模型只是提到了模型对于文本长度的支持差异效果方面目前并没有非常权威的结论。可以通过leaderboard来了解各个模型的性能榜上的大多数的模型的评测还是基于公开数据集的benchmark对于真实生产中的场景benchmark结论是否成立还需要case by case地来看。但原则上有以下几方面的经验可以分享经过垂直领域Finetune的模型比原始向量模型有明显优势目前的向量化模型分为两类对称和非对称。未进行微调的情况下对于FAQ建议走对称召回也就是Query到Question的召回。对于文档片段知识建议使用非对称召回模型也就是Query到Answer文档片段的召回。没有效果上的明显的差异的情况下尽量选择向量维度短的模型高维向量如openai的text-embedding-ada-002会给向量数据库造成检索性能和成本两方面的压力。向量化并行真实的业务场景中文档的规模在百到百万这个数量级之间。按照冗余的多级召回方式对应的知识条目最高可能达到亿的规模。由于整个离线计算的规模很大所以必须并发进行否则无法满足知识新增和向量检索效果迭代的要求。步骤上主要分为以下三个计算阶段。文档切分并行计算的并发粒度是文件级别的处理的文件格式也是多样的如TXT纯文本MarkdownPDF等其对应的切分逻辑也有差异。而使用Spark这种大数据框架来并行处理过重并不合适。使用多核实例进行多进程并发处理则过于原始任务的观测追踪上不太方便。所以可以选用AWS Glue的Python shell引擎进行处理。主要有如下好处方便的按照文件粒度进行并发并发度简单可控。具有重试、超时等机制方便任务的追踪和观察日志直接对接到AWS CloudWatch 方便的构建运行依赖包通过参数–additional-python-modules指定即可同时Glue Python的运行环境中已经自带了opensearch_py等依赖向量化推理并行由于切分的段落和句子相对于文档数量也膨胀了很多倍向量模型的推理吞吐能力决定了整个流程的吞吐能力。这里采用SageMaker Endpoint来部署向量化模型一般来说为了提供模型的吞吐能力可以采用GPU实例推理以及多节点Endpoint/Endpoint弹性伸缩能力Server-Side/Client-Side Batch推理能力这些都是一些有效措施。具体到离线向量知识库构建这个场景可以采用如下几种策略 GPU实例部署向量化模型CPU实例是可以推理的。但离线场景下推理并发度高GPU相对于CPU可以达到20倍左右的吞吐量提升。所以离线场景可以采用GPU推理在线场景CPU推理的策略。多节点Endpoint对于临时的大并发向量生成通过部署多节点Endpoint进行处理处理完毕后可以关闭利用Client-Side Batch推理离线推理时Client-side batch构造十分容易。无需开启Server-side Batch推理一般来说Sever-side batch都会有个等待时间如50ms或100ms对于推理延迟比较高的大语言模型比较有效对于向量化推理则不太适用。 OpenSearch批量注入 Amazon OpenSearch的写入操作在实现上可以通过bulk批量进行比单条写入有很大优势。向量数据库优化向量数据库选择哪种近似搜索算法选择合适的集群规模以及集群设置调优对于知识库的读写性能也十分关键主要需要考虑以下几个方面算法选择在OpenSearch里提供了两种k-NN的算法HNSW Hierarchical Navigable Small World和IVFInverted File。在选择k-NN搜索算法时需要考虑多个因素。如果内存不是限制因素建议优先考虑使用HNSW算法因为HNSW算法可以同时保证latency和recall。如果内存使用量需要控制可以考虑使用IVF算法它可以在保持类似HNSW的查询速度和质量的同时减少内存使用量。但是如果内存是较大的限制因素可以考虑为HNSW或IVF算法添加PQ编码以进一步减少内存使用量。需要注意的是添加PQ编码可能会降低准确率。因此在选择算法和优化方法时需要综合考虑多个因素以满足具体的应用需求。集群规模预估选定了算法后可以根据公式计算所需的内存进而推导出k-NN集群大小批量注入优化在向知识向量库中注入大量数据时需要关注一些关键的性能优化以下是一些主要的优化策略 Disable refresh interval 增加indexing线程增加knn内存占比

查看全文

http://www.pierceye.com/news/207619/