做网站的工作好吗,自定义网页,建设部网站办事大厅,响应式网站设计企业机器学习第一道菜#xff08;一#xff09;#xff1a;线性回归的理论模型 一、问题#xff1a;千金买笑1.1 散点图1.2 机器学习能搞啥 二、模型的建立2.1 线性回归2.2 回归模型 前面讲了机器学习的“四大绝技”#xff0c;今天#xff0c;开始研究第一绝技“回归”… 机器学习第一道菜一线性回归的理论模型 一、问题千金买笑1.1 散点图1.2 机器学习能搞啥 二、模型的建立2.1 线性回归2.2 回归模型 前面讲了机器学习的“四大绝技”今天开始研究第一绝技“回归”这篇文章就从最简单的线性回归开始讲起。 一、问题千金买笑
1.1 散点图
以追女孩为例假设送的礼物越贵妹子对我们抱以微笑的时候就越多。也就是说二者成线性关系妹子的微笑次数是礼物金额的一次函数。 假设某君实际统计了一系列礼物金额与微笑次数的数据并画出散点图 现在交给你个任务请回答送6000元礼物能有多少次微笑回馈。 这个问题很简单一眼就能看个差不离大概四五十次的样子。
1.2 机器学习能搞啥
那能不能根据已有数据找出一条最佳直线来表示礼物金额和微笑次数的函数关系呢如果找到了这条线不就可以预测出要花多少钱就能让妹子对我们笑一万次了吗 这就是机器学习要做的事情分析数据找规律。 只不过呢机器学习可能会有点意见认为解这道题有点大材小用。 咱们这样简化处理纯为方便理解现实生活中可能有1000个影响因素还拿妹子的微笑来说真是你花钱就能买到的吗可能你扶个老妹妹过马路被妹子看到都会大方地给你个微笑。
二、模型的建立
2.1 线性回归
不管是简单版还是复杂版类似这样的问题都属于机器学习的回归任务。回归就是要找到一条函数曲线去近似模拟真实世界的规律。有关回归更详细的介绍参见【深度解析】机器学习的“四大绝技” 这些已有的离散点越多机器学习吃得越饱模拟得也就越精确。找到了这条曲线就可以用来预测未来下一个点会打在什么地方或者某个条件下点会打在什么地方。 不过咱们要找的线不是什么复杂的曲线而是一条直线像这样的回归问题叫“线性回归”。 因为两点确定一条直线显然对于上面的散点图来说不可能找到一条完美的直线通过所有点。这很好理解妹子的微笑不可能完全由一根直线决定因此这些点是有噪声的。 我们要找的应该是类似下图的一条直线 这个过程在数学中叫“拟合”。
2.2 回归模型
一次函数的表达式为ykxb其中k是斜率、b是截距。 只要确定了斜率和截距一次函数的图像形状也就确定了因此我们要做的就求出k和b。 NONONO。 这里我们要来个画风突变。 在机器学习的世界里我们要用统计学的风格来表达函数关系将表达式写成下面的形式 y θ 0 θ 1 x y\theta_0 \theta_1x yθ0θ1x θ \theta θ读作“西塔theta”就是接下来我们要求的未知数或者叫参数。 为什么要搞个“西塔”出来还要带下标呢有两个原因 (1)命名习惯。在统计学领域常使用θ来表示未知数和推测值。 (2)队伍多了不好带。如果函数有很多项那就会大量出现a、b、c、d…这样的符号显得很混乱就像一支军队个个都穿得花里胡哨的。此外如果有1000项集齐全世界的符号都不够用了而用数字做下标就不存在问题了。所以为了整齐划一、多带队伍就得统一军装并下发编号。 现在机器学习的理论模型就算搭建好了接下来要做的就是不断地给机器喂x、y让它求出 θ \theta θ的过程。 怎么计算呢 计算机也不知道给多大的值合适那就先随便给个随机值比如设 θ 0 1 \theta_01 θ01、 θ 1 2 \theta_12 θ12则表达式变为 y 1 2 x y1 2x y12x 然后开始喂数据假设把x2000代入表达式则 y 1 2 x 1 2 × 2000 4001 y1 2x 1 2\times2000 4001 y12x12×20004001 这差得也太远了吧从图上看y的实际值也就应该20左右的样子。 计算值与实际值差别大就说明刚才假设 θ 0 1 \theta_01 θ01、 θ 1 2 \theta_12 θ12是不正确的这就需要调整 θ 0 \theta_0 θ0 、 θ 1 \theta_1 θ1的值使计算值与实际值的差最小。 只使这一组数据的差值最小显然不行应该使所有数据的差都尽量的小。 怎么办呢聪明的你肯定能想到那就对所有数据的差求和只要这个和最小就可以了。 这就需要用到“最小二乘法”咱们以后再说。
附有关机器学习的其他文章 数据分析vs机器学习 离程序库越近离真理越远 TensorFlow的简明介绍机器学习界的谷大拿 机器学习与人工智能的关系 机器学习的爆发秘密 【深度解析】机器学习的“四大绝技”