当前位置：首页 > news >正文

网站服务器自己做中企动力地址

news 2025/12/20 9:15:04

网站服务器自己做,中企动力地址,网站排名掉了该怎么做,设计工作室网页设计星标/置顶小屋#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 邢智皓编 | 兔子酱当前#xff0c;深度学习推荐模型已经成功应用于推荐、广告、搜索等领域#xff0c;但在了解它之前#xff0c;简单回顾传统推荐模型仍是有必要的#xff0c;原因如下#xff1a;… 星标/置顶小屋带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 邢智皓编 | 兔子酱当前深度学习推荐模型已经成功应用于推荐、广告、搜索等领域但在了解它之前简单回顾传统推荐模型仍是有必要的原因如下即使在深度学习空前流行的今天协同过滤、逻辑回归、因子分解机等传统推荐模型仍然凭借其可解释性、硬件环境要求低、易于快速训练和部署等不可替代的优势在实际系统中备受青睐。传统推荐模型是深度学习推荐模型的基础很多深度学习推荐模型比如基于因子分解机支持的神经网络(FNN)、深度因子分解机(DeepFM)等更是与传统的FM模型有着千丝万缕的联系。本文主要参考了王喆老师的《深度学习推荐系统》从传统推荐模型的进化关系图开始介绍了具有代表性的传统推荐模型的原理、优缺点以及不同模型之间的演化关系希望能够为读者绘制一幅全面的传统推荐系统模型进化蓝图。传统推荐模型的演化关系图下图为传统推荐模型的演化关系图我们将它作为本文的索引。已经对其中某些模型有所了解的读者可以由点及面地构建全面的模型进化关系脉络还没有相关知识储备的读者可以据此建立传统推荐模型的框架和大致印象。基于用户的协同过滤(UserCF)如果让推荐系统领域的从业者说出业界影响力最大、应用最广泛的模型那笔者认为90%的从业者会首选协同过滤。什么是协同过滤顾名思义“协同过滤”就是协同大家的反馈、评价和意见一起对海量的信息进行过滤从中筛选出目标用户可能感兴趣的信息的推荐过程。下面用一个商品推荐的例子来说明协同过滤的推荐过程。协同过滤的具体流程电商网站的商品库里面一共有4件商品游戏机、某小说、某杂志和某品牌电视机。用户访问该电商网站时,电商网站的推荐系统需要决定是否将电视机推荐给用户。为了进行这项预测可以利用用户对其他商品的历史评价数据以及其他用户对这些商品的历史评级数据。为了方便计算可以将图2中的用户对商品的喜好转换为矩阵的形式(被称为”共现矩阵“)用户作为矩阵的行坐标商品作为列坐标将”点赞“和”踩“的用户行为转换为矩阵中的相应元素。生成共现矩阵后推荐问题就转换成了预测矩阵中问号元素的值的问题。既然是”协同“过滤用户应该考虑与自己兴趣相似的用户的意见。因此预测的第一步是要找到与用户兴趣最相似的个用户综合相似用户对”电视机“的评价给出用户对电视机的预测。从共现矩阵中可知用户和用户跟用户的行向量接近被选为Top 相似用户。有图2所知用户和对电视机的评价都是负面的。相似用户对”电视机“的评价是负面的因此可以预测用户X对”电视机“的评价也是负面的。常用的向量相似度计算方法有余弦相似度、皮尔逊相关系数等有兴趣的读者可以查阅相关资料做详细了解。以上介绍的系统过滤算法是基于用户相似度进行推荐因此也被称为基于用户的协同过滤(UserCF),该方法包含以下缺点在互联网场景下用户数往往大于商品数而 userCF 需要维护用户相似度矩阵以便快速找出Top 相似用户用户的增长会导致用户相似度矩阵的存储空间已速度快速增长这是在线存储系统难以承受的。用户的历史数据向量往往非常稀疏对于只有几次购买或者点击行为的用来来说找到相似用户的准确度是非常低的导致UserCF不适于哪些正反馈比较困难的应用场景。基于物品的协同过滤(ItemCF)由于UserCF技术上的缺点UserCF并没有得到广泛应用而ItemCF成为了Amazon、Netflix等公司最初的推荐系统。ItemCF的算法过程基于历史数据构建以用户(假设用户总数为)为行坐标物品(物品总数为)为列坐标的 x 维的共现矩阵。计算共现矩阵两两列向量间的相似性(相似度的计算方式与用户相似度计算方式相同)构建 x 维的物品相似度矩阵。获取用户历史行为数据中的正反馈物品列表。利用物品相似度矩阵针对目标用户历史行为中的正反馈物品找到相似的 Top 个物品组成相似物品集合。针对相似物品集合中的物品利用相似度分值进行排序生成最终的推荐列表。UserCF与ItemCF的应用场景由于UserCF基于用户相似度进行推荐使其具备更强的社交特性该特点使其非常适用于新闻推荐场景。ItemCF更适用于兴趣变化较为稳定的应用比如电商系统视频推荐系统等。矩阵分解算法针对协同过滤头部效应较明显泛化能力弱的问题矩阵算法被提出。矩阵分解算法在协同过滤算法中“共现矩阵”的基础上加入了隐向量的概念加强了模型对稀疏矩阵的处理能力针对性地解决了协同过滤存在的主要问题。基本原理矩阵分解算法将 x 维的共现矩阵分解为 x 维的用户矩阵和 x 维的物品矩阵相乘的形式其中是用户数量是物品数量是隐向量的维度的大小决定了隐向量表达能力的强弱。的取值越小隐向量包含的信息越少模型的泛化程度越高反之的取值越大隐向量的表达能力越强泛化程度相应降低。常用的矩阵分解方法有特征值分解、奇异值分解和梯度下降有兴趣的读者可以查阅相关资料深入了解。矩阵分解算法的优缺点相比于协同过滤算法矩阵分解算法有如下优势泛化能力强在一定程度上解决了数据稀疏问题空间复杂度低空间复杂度有级别降低到级别。更好的扩展性和灵活性。矩阵分解的最终产出是用户和物品隐向量这其实与深度学习中的Embedding思想不谋而合因此矩阵分解的结果也非常用户与其他特征进行拼接和组合并便于与深度学习网络进行无缝结合。逻辑回归算法相比于协同过滤模型仅利用用户和商品的相互行为信息进行推荐逻辑回归模型能够综合利用用户、商品和上下文的特征生成较为“全面”的推荐结果。基本原理相比协同过滤和矩阵分解利用用户和商品的“相似度”进行推荐逻辑回归将推荐问题看成一个分类问题通过预测正样本的概率对物品进行排序。正样本可以是用户“点击”了某商品也可以是用户“观看”了某视频这些都是推荐系统希望用户产生的“正反馈”行为。逻辑回归模型将推荐问题转换成了一个点击率预估问题。逻辑回归模型的推荐过程将用户年龄、性别、物品属性、物品描述、当前时间、当前地点等特征转换成数值型向量。确定逻辑回归模型的优化目标优化“点击率”利用已有样本数据对逻辑回归模型进行训练确定逻辑回归模型的内部参数。在模型服务阶段将特征向量输入到逻辑回归模型经过模型的推荐得到用户“点击”物品的概率。利用“点击”概率对所有候选物品进行排序得到推荐列表。逻辑回归的数学形式在此不再详细阐述有兴趣的读者可以查阅相关资料进行理解。逻辑回归模型优势数学含义上的支撑逻辑回归模型是广义线性模型的一种它的假设是因变量y服从伯努利分布。在CTR预估这个问题上“点击”事件是否发生就是模型的因变量y而用户是否点击广告就是一个经典的投掷偏心硬币问题。因此CTR模型的因变量显然服从伯努利分布。可解释性强直观地讲逻辑回归模型的数学形式是各特征的加权和再施以sigmoid函数。特征的权重反应了各个特征的重要程度因此逻辑回归模型具有极强的可解释性。工程化的需要逻辑回归模型凭借其易于并行化、模型简单、训练开销小等特点占据着工程领域的主流。逻辑回归模型的局限性逻辑回归作为一个基础模型其局限性是非常明显的表达能力不强、无法进行特征交叉、特征筛选等一系列“高级”的操作因此不可避免地造成信息的损失。自动特征交叉的解决方案逻辑回归模型表达能力不强的问题会不可避免地造成有效信息的损失。在仅利用单一特征而非交叉特征进行判断的情况下有时不仅是信息损失的问题甚至会得出错误的结论。因此通过改造逻辑回归模型使其具备特征交叉的能力是必要和迫切的。POLY2模型针对特征交叉的问题算法工程师经常采用先手动组合特征再通过各种分析手段筛选特征的方法但这种方法无疑是低效的。更遗憾的是人类的经验往往有局限性。因此采用POLY2模型进行特征的“暴力”组合成了可行的选择。POLY2模型的数学表达形式如下所述从上述公式可以看到该模型对所有特征进行了两两交叉并对所有的特征组合赋予了权重。POLY2通过暴力组合特征的方式在一定程度上解决了特征组合的问题。算法缺陷在处理互联网数据是经常采用one-hot编码的方式处理类别型数据导致特征向量极度稀疏。而POLY2进行无选择的特征交叉使得原来非常稀疏的特征向量更加稀疏进而导致大部分交叉特征的权重缺乏有效的数据进行训练而无法收敛。权重参数的数量由上升到极大地增加了训练复杂度。FM模型为了解决POLY2模型的缺陷研究者提出了FM模型模型的数学表达形式如下所示与POLY2相比其主要区别是用两个向量的内积取代了单一的权重系数。FM为每个特征学习了一个隐权重向量在特征交叉时使用两个特征隐向量的内积作为交叉特征的权重。FM引入隐向量的做法本质上与矩阵分解用隐向量代表用户和物品的做法异曲同工。可以说FM是将矩阵分解隐向量的思想进行了进一步扩展从单纯的用户、物品隐向量拓展到了所有特征上。算法优点FM通过引入特征隐向量的方式直接把POLY2模型级别的权重参数数量减少到了(为隐向量的维度).隐向量的引入使得FM能更好的解决数据稀疏性的问题降低了模型对数据稀疏性的要求。相比于POLY2FM虽然丢失了某些具体特征组合的精确记忆能力但是泛化能力大大提高。最后我们对上述出现过的所有模型的特点进行总结希望帮助读者再次回顾其中的关键知识。在对传统的推荐模型进行总结时读者也要意识到传统推荐模型与深度学习模型之间存在着千丝万缕的联系。正是对传统模型研究的不断积累为深度学习模型打下了坚实的理论和实践基础。矩阵分解技术成功应用在推荐系统领域其隐向量的思想与深度学习中Embedding技术的思路一脉相承FM被提出特征交叉的概念被引入推荐模型其核心思想——特征交叉的思路也将在深度学习模型中被发扬光大。这些概念都将在深度学习推荐模型中继续应用持续发光。文末福利后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群有顶会审稿人、大厂研究员、知乎大V和妹纸等你来撩哦~

查看全文

http://www.pierceye.com/news/790273/