好心人给个安全的网站,网站空间更换,微信营销的模式,企业网站模板下载服务哪家好转载请注明出自BYRans博客#xff1a;http://www.cnblogs.com/BYRans/ 实例 首先举个例子#xff0c;假设我们有一个二手房交易记录的数据集#xff0c;已知房屋面积、卧室数量和房屋的交易价格#xff0c;如下表#xff1a; 假如有一个房子要卖#xff0c;我们希望通过上…转载请注明出自BYRans博客http://www.cnblogs.com/BYRans/ 实例 首先举个例子假设我们有一个二手房交易记录的数据集已知房屋面积、卧室数量和房屋的交易价格如下表 假如有一个房子要卖我们希望通过上表中的数据估算这个房子的价格。这个问题就是典型的回归问题这边文章主要讲回归中的线性回归问题。 线性回归Linear Regression 首先要明白什么是回归。回归的目的是通过几个已知数据来预测另一个数值型数据的目标值。假设特征和结果满足线性关系即满足一个计算公式h(x)这个公式的自变量就是已知的数据x函数值h(x)就是要预测的目标值。这一计算公式称为回归方程得到这个方程的过程就称为回归。 线性回归就是假设这个方式是一个线性方程即假设这个方程是一个多元一次方程。以咱们上面提到的例子为例假设房子的房屋面积和卧室数量为自变量x用x1表示房屋面积x2表示卧室数量房屋的交易价格为因变量y我们用h(x)来表示y。假设房屋面积、卧室数量与房屋的交易价格是线性关系。他们满足公式 上述公式中的θ为参数也称为权重可以理解为x1和x2对h(x)的影响度。对这个公式稍作变化就是 公式中θ和x是向量n是样本数。 假如我们依据这个公式来预测h(x)公式中的x是我们已知的然而θ的取值却不知道只要我们把θ的取值求解出来我们就可以依据这个公式来做预测了。 那么如何依据训练数据求解θ的最优取值呢这就牵扯到另外一个概念损失函数Loss Function。 损失函数Loss Function 我们要做的是依据我们的训练集选取最优的θ在我们的训练集中让h(x)尽可能接近真实的值。h(x)和真实的值之间的差距我们定义了一个函数来描述这个差距这个函数称为损失函数表达式如下 这里的这个损失函数就是著名的最小二乘损失函数这里还涉及一个概念叫最小二乘法这里不再展开了。 我们要选择最优的θ使得h(x)最近进真实值。这个问题就转化为求解最优的θ使损失函数J(θ)取最小值。那么如何解决这个转化后的问题呢这又牵扯到一个概念梯度下降Radient Descent 最小均方算法Least mean squareLMS算法 对的朋友你没有看错不是梯度下降是LMS算法。耐心点梯度下降一会儿就出来了 我们先来看当训练样本只有一个的时候的情况然后再将训练样本扩大到多个的情况。训练样本只有一个的情况我们借鉴LMS算法的思想。扩大到多个我们稍后说。 我们要求解使得J(θ)最小的θ值LMS算法大概的思路是我们首先随便给θ一个初始化的值然后改变θ值让J(θ)的取值变小不断重复改变θ使J(θ)变小的过程直至J(θ)约等于最小值。 首先我们给θ一个初试值然后向着让J(θ)变化最大的方向更新θ的取值如此迭代。公式如下 公式中α称为步长learning rate它控制θ每次向J(θ)变小的方向迭代时的变化幅度。J(θ)对θ的偏导表示J(θ)变化最大的方向。由于求的是极小值因此梯度方向是偏导数的反方向。求解一下这个偏导过程如下 那么θ的迭代公式就变为 这是当训练集只有一个样本时的数学表达。我们又两种方式将只有一个样本的数学表达转化为样本为多个的情况梯度下降gradient descent和正则方程The normal equations。这里我们重点讲梯度下降。 梯度下降 批梯度下降batch gradient descent 如下公式是处理一个样本的表达式 转化为处理多个样本就是如下表达 这种新的表达式每一步都是计算的全部训练集的数据所以称之为批梯度下降batch gradient descent。 注意梯度下降可能得到局部最优但在优化问题里我们已经证明线性回归只有一个最优点因为损失函数J(θ)是一个二次的凸函数不会产生局部最优的情况。假设学习步长α不是特别大 批梯度下降的算法执行过程如下图 大家仔细看批梯度下降的数学表达式每次迭代的时候都要对所有数据集样本计算求和计算量就会很大尤其是训练数据集特别大的情况。那有没有计算量较小而且效果也不错的方法呢有这就是随机梯度下降Stochastic Gradient Descent, SGD 随机梯度下降Stochastic Gradient Descent, SGD 随机梯度下降在计算下降最快的方向时时随机选一个数据进行计算而不是扫描全部训练数据集这样就加快了迭代速度。随机梯度下降并不是沿着J(θ)下降最快的方向收敛而是震荡的方式趋向极小点。余凯教授在龙星计划课程中用“曲线救国”来比喻随机梯度下降。 随机梯度下降表达式如下 执行过程如下图 批梯度下降和随机梯度下降在三维图上对比如下 总结 线性回归是回归问题中的一种线性回归假设目标值与特征之间线性相关即满足一个多元一次方程。使用最小二乘法构建损失函数用梯度下降来求解损失函数最小时的θ值。转载于:https://www.cnblogs.com/BYRans/p/4700202.html