福州网站推广定制,新加坡网站建设公司,中科建建设发展有限公司网站,为什么要学电商网站建设简介
非结构化数据
世界上大约超过百分之八十的数据都是非结构化数据#xff0c;例如#xff1a;图像、音视频、自然语言等#xff0c;这些模型不遵循预定义的模式或组织方式#xff0c;可以使用各种人工智能 (AI) 和机器学习 (ML) 模型转换为向量。
嵌入向量#xff0…简介
非结构化数据
世界上大约超过百分之八十的数据都是非结构化数据例如图像、音视频、自然语言等这些模型不遵循预定义的模式或组织方式可以使用各种人工智能 (AI) 和机器学习 (ML) 模型转换为向量。
嵌入向量Embedding vectors
嵌入向量是非结构化数据的特征抽象例如电子邮件、物联网传感器数据、Instagram 照片、蛋白质结构等等。从数学上来说嵌入向量是浮点数或二进制数的数组。现代嵌入技术用于将非结构化数据转换为嵌入向量。
向量相似度搜索
向量相似性搜索是将向量与数据库进行比较以查找与查询向量最相似的向量的过程。近似最近邻ANN - Approximate nearest neighbor搜索算法用于加速搜索过程。如果两个嵌入向量非常相似则意味着原始数据源也相似。
索引
FLAT
不经过量化扁平的索引没有分层或分组进行相似度搜索时系统会计算查询向量与所有存储向量之前的相似度。因为它需要计算查询向量与所有存储向量之间的相似度这会随着数据量的增加而变得非常昂贵大规模数据集时需要更复杂的索引结构如IVF_FLAT。 特点每个向量都是扁平的即未经过量化或者降维的处理简单高效更新效率高不涉及倒排文件等结构。 适用场景适用于较小规模百万级的数据集特别是当数据集能够完全加载到内存中时。
IVF_FLAT
Inverted File with FLAT (or non-quantized) vectors即具有 flat或非量化向量的倒排文件索引对应的还有一个 GPU 版本GPU_IVF_FLAT。 特点使用了倒排文件Inverted File的结构可以高效地处理大规模数据集。同时每个向量也是扁平的即未经过额外处理的原始向量。** 适用场景适用于需要在大规模数据集中进行相似度搜索的情况在搜索精度上与FLAT没有区别但是在大规模数据集上可以先用倒排文件更快定位包含可能相似向量的倒排列表从而减少计算相似度量的开销。
IVF_SQ8
Inverted File with Scalar Quantizer of 8 bits即具有8位标量量化器的倒排文件索引。模型量化介绍 特点它在量化向量时使用了较小的位数8位可以在保持较低存储开销的同时实现相对较快的搜索速度。然而由于使用了量化可能会牺牲一些精度。 适用场景用于在有限的磁盘、CPU 和 GPU 内存资源下追求显著的资源消耗降低。这意味着在资源受限的环境中它可以带来存储和内存的显著减少。
IVF_PQ
Inverted File with Product Quantization对应的还有一个 GPU 版本GPU_IVF_PQ 特点使用了一种叫做 Product Quantization 的技术这种技术可以在加快查询速度的同时对准确度进行一定的牺牲。 适用场景用于追求高查询速度会牺牲一定准确度。
HNSW
Hierarchical Navigable Small World是一种基于图的索引结构适用于对搜索效率要求较高的场景。这种索引结构通过构建一个分层的可导航小世界图以支持高效的搜索操作。
相似度度量
欧氏距离Euclidean Distance
常用输入计算机图像领域的内嵌Float向量 适用于连续的数值型数据如图像处理、数值分析等领域。当各个特征的重要性相等时欧氏距离是一个常见的选择。
余弦相似度Cosine Similarity
常用输入文本领域的内嵌Float向量 余弦相似度计算两组数据之间的夹角假设它们都是从[0,0,…]开始的线它的值范围是[-1, 1]值越大相似度越高。 主要用于衡量两个向量之间的夹角而不受向量大小的影响。适用于高维稀疏数据比如文本数据
内积Inner Product
常用输入文本/图形像素领域的内嵌Float向量 内积的计算是将两个向量对应位置的元素相乘后再相加。常用于度量两个向量的相似性特别是在向量表示的语境中如自然语言处理中的词向量。两个向量的内积越大表示它们在方向上越相似而越小则表示它们在方向上差异较大。内积主要用于度量向量之间的相似度适用于密集向量。
Jaccard相似度Jaccard Similarity
常用输入文本领域的内嵌Binary向量 主要应用于集合数据如文档相似度计算、推荐系统中用户行为的相似性等。 Jaccard相似度计算的是两个集合交集与并集的比值。