购物网站排行,sem优化软件哪家好,企业服务中心工作内容,专业网站建设总结文章目录 基于Embedding召回介绍基于Embedding召回算法分类I2I召回U2I召回 DSSM模型DSSM双塔模型层次 基于Embedding召回介绍
基于embedding的召回是从内容文本信息和用户查询的角度出发#xff0c;利用预训练的词向量模型或深度学习模型#xff0c;将文本信息转换成向量进行… 文章目录 基于Embedding召回介绍基于Embedding召回算法分类I2I召回U2I召回 DSSM模型DSSM双塔模型层次 基于Embedding召回介绍
基于embedding的召回是从内容文本信息和用户查询的角度出发利用预训练的词向量模型或深度学习模型将文本信息转换成向量进行表示通过计算两个向量之间的距离或者相似度来推荐内容。这种方式主要考虑商品文本信息的语义信息使推荐的内容更加精准。Embedding召回主要的优缺点 优点 扩展性强基于 Embedding 的召回算法可以学习大规模物品或用户的向量表示因此对于超大规模推荐系统也可以进行有效召回。 表达能力强基于 Embedding 的召回算法可以学习到物品或用户更为细致的特征表示因此能够更好地捕捉物品或用户之间的相似性。 可解释性强基于 Embedding 的召回算法可以自然地将物品或用户表示为低维向量这使得我们可以通过可视化等手段来更好地理解和解释推荐结果。缺点 数据量大训练周期长只能表示用户与物品向量表示关系无法进行高维度特征表示时间序列等调参过程比较繁琐。
基于Embedding召回算法分类
基于 Embedding 的召回算法可分为两类有I2I 的召回和U2I的召回。
I2I召回
I2I也就是Item-to-Item实际上就是要将每一个 Item 用向量来表示。在Item-to-Item 召回中系统会根据用户已经交互过的物品找到这些物品的相似度然后根据相似度来召回其他类似的物品作为推荐结果。这个向量的表示我们就可以理解为Embedding。Item-to-Item召回通常分为两个步骤第一步计算物品之间的相似度第二步用户请求推荐时系统根据该用户的历史交互行为找到该用户已交互过的物品并选取与之最相似的一些物品作为推荐结果。常见的I2I召回算法有Word2Vec、Item2Vec、FastText、BERT等。
U2I召回
U2I也就是User-to-Item它基于用户的历史行为以及用户的一些个人信息对系统中的候选物品进行筛选挑选出一部分最有可能被用户喜欢的物品送入推荐模型进行排序和推荐。常见的U2I策略有 基于用户历史行为召回基于用户画像召回基于社交网络召回 常见的U2I召回算法有DSSM双塔模型、YouTubeDNN等。
DSSM模型
DSSM模型又叫双塔模型全称 Deep Structured Semantic ModelUser塔适合在线计算User-EmbeddingItem塔适合离线计算Item-Embedding通过向量检索就可以进行快速地召回。线上预测的时候只需要在内存中计算相似度运算即可Cosine-similarity等。DSSM双塔模型图 User塔表示用户历史行为的信息如用户的浏览记录、购买记录等。它的输入是一个用户的历史行为序列其目标是把这个序列映射为一个固定的用户向量表示该向量表示用户的兴趣特征。Item塔表示所有的物品的信息如物品的标题、描述、标签等。它的输入是一个物品的特征序列或向量其目标是把这个序列或向量映射为一个固定的物品向量表示该向量表示物品的特征。借助于用户历史行为和物品的特征向量表示DSSM可以计算用户特征向量和物品特征向量之间的相似度预测哪些物品最符合用户的兴趣并产生最高的预测分数。这些物品可以按照预测分数的高低排序推送给用户进行推荐。所以DSSM双塔模型的作用就是协同基于用户历史行为和物品特征对用户兴趣进行建模并通过此模型产生个性化推荐结果。
DSSM双塔模型层次
根据上面的架构图来看DSSM双塔模型主要分为三层 输入层User侧特征和Item侧特征是输入层。输入层主要的作用是把文本映射到低维向量空间转化成向量提供给深度学习网络。表示层DNN就是表示层DSSM模型表示层使用的是BOWBag Of Words词袋模型没有考虑词序的信息。不考虑词序其实存在明显的问题因为一句话可能词相同但是语义则相差十万八千里。匹配层匹配层就是针对于前面的Query和Doc进行相似度计算这个过程实际上非常简单就是把Query 和Doc统一转换成了两个128维的语义向量通过Cosine计算这两个向量的余弦相似度。 表示层的结构图 术语解释 Term Vector目标文本的embedding向量Word Hashing因为目标向量维数比较大而对BOW向量进行降维。Multi-layer non-linear projection深度学习网络多隐层通过降维最终生成128维。Semantic FeatureQueryDoc最终生成的embedding向量。Relevance measured by cosine similarityQueryDoc所计算的余弦相似度。Posterior probability computed by softmax通过Softmax函数计算Query和正样本Doc语义相似性进行后验概率。 所用公式 DNN 激活函数 相似度计算公式 softmax后验概率公式 损失函数 Tips这些截图信息都是我在论文里找的详细请参考链接。