当前位置：首页 > news >正文

常州网站建设公司巧誉友网络黄石专业网站建设推广

news 2025/11/15 5:27:46

常州网站建设公司巧誉友网络,黄石专业网站建设推广,开发小程序好的公司,建设一个网站怎么赚钱文 | 水哥源 | 知乎1.如果说LR是复读机#xff0c;那么FM可以算作是电子词典2.泛化就是我没见过你#xff0c;我也能懂你#xff0c;但是泛化有时候和个性化有点矛盾#xff0c;属于此消彼长的关系3.实践中的泛化往往来源于拆解#xff0c;没见过组成的产品#xff0c;但… 文 | 水哥源 | 知乎1.如果说LR是复读机那么FM可以算作是电子词典2.泛化就是我没见过你我也能懂你但是泛化有时候和个性化有点矛盾属于此消彼长的关系3.实践中的泛化往往来源于拆解没见过组成的产品但是见过各种零件就能推断出很多的信息4.FFM中第二个F有时候不太重要第一个F倒是一直很坚挺。field的设计包含了调参老师傅对业务的理解这一讲我们要介绍的是因子分解机Factorization Machine及其初级的变形还有一些虽然不是FM这个形式但是其内核类似会放在后面。如果说LR是复读机那么FM可以算是电子词典提供一个查近义词类似特征性质的功能。FM初步具备了泛化能力对于新的特征组合有很好的推断性质它所需要的可学习参数也可以小于交叉特征很多的LR。在这个DNN的时代FM的交叉性质也没有被完全替代还能站在时代的浪尖上。Factorization Machine[1]在LR中如果在sigmoid作用之前我们可以把模型的形式看做这就是一个简单的线性形式。其中就是一个bias项是个数。和之前在LR中的定义一样就是特征。是对应的权重。如果我们像上一讲讲得那样通过设计交叉特征来体现非线性模型的形式会变成这里就用来给交叉特征这里只涉及二阶的做权重。想要模型的能力强一些自然需要设计出好的交叉特征。但是交叉特征的代价是比较大的两个特征的交叉特征可能的取值是平方级数量。设计的交叉特征太多对模型存储带来了很大的挑战。另外一个很重要的问题是其实这些权重之间没有任何联系比如说有两个特征一个是性别一个是城市。推荐一个火锅先遇到一个样本是男重庆结果是点击了男x重庆这个二阶特征有权重了下次再遇到一个女性样本也是重庆女x重庆的二阶特征却没有权重。可是从人的理解来说吃不吃辣其实重庆这个特征占了很大的权重难道我就不可以猜女x重庆也应该有一个较大的起始值才对嘛我们上面说的这种合理猜测本质上是想要一种“泛化”。可以简单的理解为我没见过这种组合它的性质我也能猜的差不多。实践中想要泛化往往需要拆解比如说现在有人类和猫两种生物我们对人有一些认识然后遇见了一个新的生物——喵星人外形看起来差异很大好像不太懂这种生物的特点是什么。这时候我们就可以做拆解如果我们知道一些底层属性比如猫也是细胞组织这样构建起来的我们就可以猜测它也要吃饭喝水。我们知道猫也有毛发所以可以猜测这是为了保温的需求那说明猫也有恒定的体温。这样一做拆解就能分析出很多性质哪怕喵星人我们是第一次见也会有大概的认识。而FM其实就是按照这种思路来处理稀疏数据的FM假设每一个特征都存在一个“隐”的embedding和它对应而二阶的特征交叉不应该表达为两个特征直接的相乘还应该包含他们的embedding的内积的作用这里的就是上面所说的隐含的embedding。其实FM把特征的交叉做了一步分解所以叫做“因子分解机”FM最大的特点是并不对所有的交叉特征的结果准备。假如我有两种特征他们的所有可能分别是和种按照naive的设计权重总共就需要个。现在每种特征只需要一个embedding就是每个embedding是维相当于权重是个。当选择合适的k的时候一般来说不会很大所有需要优化的参数可以远远小于原先需要优化的参数。这个时候鲁棒性就很容易理解的提升了。这也就是为什么FM一直在强调可以应对稀疏场景的一个原因。现在有了之后我们想要的泛化性质有改善吗像上面的例子男重庆这个样本给出了男和重庆由于存在点击这两个embedding被拉近了一些。而女可能在别的组合中被训练过了这样女和重庆做内积可以得到一个非零的结果那对于没见过的这种组合其实就是有指导意义的而如果是在LR里面这个交叉项的权重此时还是0呢。FM有一个复杂度问题也是这篇文章的一个卖点经常出现在面试中。下面我们也会稍微提一下这个点。将二阶项重新写一下其中第一个等号可以这样理解把和写成一个二维矩阵我们要的是上三角矩阵。那么他就等于全部的矩阵减去中间对角线之后除以2.后面的就是很简单的形式上的变化了。到了最后这里计算圆括号中的一个小sum需要用的复杂度是后面也是。外面的sum乘完总共是的复杂度。但是需要提醒的是这个点知道就行了意义不大。实践当中出现比较多的是下面要讲的FFM当我在所有要交叉的项里面挑选一个子集的时候上面的推导就不能继续用了。时间复杂度又会回到。而且纠结于这里的时间复杂度在当前这个DNN一统江湖的现状下也没啥必要。FM的文章里很有意思的是它一直以SVM作为“假想敌”一直在强调SVM有哪些缺点而FM有哪些优点。这和当时的环境有很大关系因为在那个年代SVM的地位是比较统治的。但是现在回头想想为什么不或者我们很少见到使用SVM做点击率预估个人的答案是SVM是一个两阶段的方法实际上是有了特征为基础再去拟合分类面。而LR和FM则不是我们与其说是在学习特征的权重倒不如可以把这个权重就看做特征本身。在我们online学习的过程中其实如何得到特征的表示是不明确的。如果想使用SVM没有一个既定的特征表示用SVM就很别扭。另外随着新样本的加入如何移动分界面也是一个需要解决的问题。我查到有一些文章试图在推荐场景下使用SVM但是都没有给出特别漂亮的形式。FFM[2]如果要说FM有什么缺点有一个是很显而易见的就是我们可能不需要每两个特征之间都交叉。但是另一个点很少有人提FM这个点积形式其实带来了一点限制两个交叉的embedding会变得越来越相似。就以FFM论文中的例子我们有3个embedding需要相互交叉出版商ESPN商家Nike性别男。按照FM的设计如果ESPN和Nike经常一起出现贡献一个正样本那他两的embedding 是会变的像的这是因为交互形式是点积。同理Nike和男同时出现这两个embedding也应该长得像才对。但是这时候就有问题了有可能ESPN不应该和男的embedding长得像或者说现在这三个embedding被捆绑了互相之间会有拉扯如果ESPN和男的embedding在实际中长得其实不像Nike的embedding该往那边走呢所以FFM引入了一个“field”的概念可以理解为“域”来解决这个问题说白了就是每一个特征都准备多套的embedding然后在一个合适的field里面我就用这个域下面的embedding来做交叉。参数的数量被推高了很多但是同时自由度也大了很多没有了上面拉扯的问题。要注意FFM还有一个很大的不同是在交叉的时候放到哪个域里面这个操作是手动指定的更进一步地允许哪些特征来交叉也是可以手动指定的。所以在实践中几乎没有人憨憨的复原FM那样任意两个特征之间都能交互而是选择人认知中需要交叉的特征来交叉。总结一下FFM与FM有两点不同第一是人为手工挑选交叉的对象。第二每一个field里面是一套新的embedding。DeepFM[3]DeepFM是一个很简单的模型也是把FM往DNN中结合的一个非常直观的实现。直观到什么程度呢直观到文章中花了不小的篇幅来区分DeepFMFNNPNNWideDeep这几个模型的区别也说明大家思路是很像的作者不要来打我。。。DeepFM分为两个部分上图中是FM部分这里的实现完全是一个完整的FFM。号那里表示的是FM中的一阶项就是把各个加起来。从field这里到上面的dense embedding就是从映射到的过程乘号就是原来的内积最后把所有结果加起来就是FM这部分的输出。上面是deep部分也就是一个MLP在进入DNN阶段时都需要把id特征转化到embedding上。实践中这是通过embedding look-up table来实现的。每一个特征的dense embedding要拼接起来再作为DNN的输入。在最后把两边的结果加起来就是DeepFM的最终形式:从图上能看出来FM部分和DNN部分的embedding其实是share的。虽然这一讲给FM带了很高的帽子泛化性但是原始形式还是太死板了。既然我都有了DNN了为什么还需要两个交叉的embedding真的做内积然后得到一个数呢我不能直接用embedding做element-wise的乘法就算做交叉了呢其实我们想得到这个点积的结果是次要的FM的精髓还是在特征的交互上。在下一讲我们就可以看到以交叉作为重点能推出怎么样一个花花的世界。下期预告推荐系统精排之锋5形变神不变花花的FNN/PNN/ONN世界往期回顾召回粗排精排如何各司其职拍不完的脑袋推荐系统打压保送重排策略简单复读机LR如何成为推荐系统精排之锋召回粗排精排-级联漏斗上召回粗排精排-级联漏斗下推荐系统精排看阿里妈妈再试线性模型后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1] Factorization MachinesICDM2010 https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf[2] Field-aware Factorization Machines for CTR PredictionRecSys2016 https://www.csie.ntu.edu.tw/~cjlin/papers/ffm.pdf[3] DeepFM: A Factorization-Machine based Neural Network for CTR PredictionIJCAI2017 https://arxiv.org/pdf/1703.04247.pdf

查看全文

http://www.pierceye.com/news/194788/