wordpress设置ssl网站打不开,在线网站软件免费下载,网站建设类型分类,网络维护公司需要什么资质语义向量模型是什么#xff1f; 语义向量模型#xff08;Embedding Model#xff09;被广泛应用于搜索、推荐、数据挖掘等重要领域#xff0c;将自然形式的数据样本#xff08;如语言、代码、图片、音视频#xff09;转化为向量#xff08;即连续的数字序列#xff09;…语义向量模型是什么 语义向量模型Embedding Model被广泛应用于搜索、推荐、数据挖掘等重要领域将自然形式的数据样本如语言、代码、图片、音视频转化为向量即连续的数字序列并用向量间的“距离”衡量数据样本之间的“相关性” 。
常见的Embedding模型
BCEmbedding BCEmbedding (Bilingual and Crosslingual Embedding for RAG) 是由网易有道开发的双语和跨语种语义表征算法模型库其中包含EmbeddingModel和RerankerModel两类基础模型。BGEEmbedding BGEEmbedding是一个通用向量模型由智源研究院开发基于retroma 对模型进行预训练再用对比学习在大规模成对数据上训练模型。M3E M3E(Moka Massive Mixed Embedding)使用场景主要是中文少量英文的情况建议使用 m3e 系列的模型。针对场景微调embedding模型 在外挂知识库的过程中embedding模型的召回效果直接影响到大模型的回答效果因此在许多场景下我们都需要微调embedding模型来提高我们的召回效果。
如何选取合适的Embedding模型
创建一个小型的内存向量数据库DocArrayInMemorySearch并在其中插入一些文本这些文本包括中文句子英文句子数字符号等这里我们为了在后面检验大模型给出的答案是否是由于幻觉而产生的。所以会往向量数据库中插入一些违背常识的文本。
from langchain.embeddings import HuggingFaceBgeEmbeddingsbge_embeddings HuggingFaceBgeEmbeddings(model_nameBAAI/bge-large-zh-v1.5)vectordb DocArrayInMemorySearch.from_texts([青蛙是食草动物,人是由恐龙进化而来的。,熊猫喜欢吃天鹅肉。,115,228,339,Gemini Pro is a Large Language Model was made by GoogleDeepMind,A Language model is trained by predicting the next token],embeddingbge_embeddings
)# #创建检索器
bge_retriever vectordb.as_retriever(search_kwargs{k: 1})这里我们创建了一个内存向量数据库vectordb,并在里面创建了3句中文3句数字符号2句英文的文本。然后我们又创建了一个检索器bge_retriever它可以根据问题从向量数据库中检索出与问题最相关的文档这里我们设置了bge_retriever的参数search_kwargs{“k”: 1}这表示beg_retriever每次只检索1条最相关的文档给用户。 实验过程中不断更换embedding模型对比不同模型的检索效果选取最合适的模型。