当前位置：首页 > news >正文

常州网站推广公司wordpress文章微信分享代码

news 2025/11/20 2:17:19

常州网站推广公司,wordpress文章微信分享代码,互联网创业项目平台,京津冀协同发展战略以吴恩达的《机器学习》课程为蓝本#xff0c;整理课程框架#xff0c;自己学习的简单记录。课程讲解很清楚#xff0c;建议有空可以看看原课程。 01 单变量线性回归回归偏向于连续属性#xff0c;分类偏向于离散属性。监督学习是给定标签的学习#xff1b;而无监督学…以吴恩达的《机器学习》课程为蓝本整理课程框架自己学习的简单记录。课程讲解很清楚建议有空可以看看原课程。 01 单变量线性回归回归偏向于连续属性分类偏向于离散属性。监督学习是给定标签的学习而无监督学习未给定标签以聚类算法为典型。 1.1 模型表达对于单变量一种可能的表达方式为 1.2 代价函数代价函数可简单理解为表达的是模型所预测的值与训练集中实际值之间的差距即建模误差。常用表达式为也有其他代价函数只是上述比较常用。可画图观察不同参数对代价函数的影响。 1.3 梯度下降梯度下降是一个用来求函数最小值的算法。梯度下降背后的思想是开始时我们随机选择一个参数的组合计算代价函数然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到到一个局部最小值local minimum因为我们并没有尝试完所有的参数组合所以不能确定我们得到的局部最小值是否便是全局最小值global minimum。选择不同的初始参数组合可能会找到不同的局部最小值。批量梯度下降batch gradient descent算法的公式为其中α是学习率learning rate它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大。 α太小移动可能很慢需要很久才能达到局部/全局最低点。 α太大移动步伐太大可能会超过最低点无法收敛。注意参数需要同时更新代码部分容易不同步 02 多变量线性回归只是参数变多其他处理和单变量类似。求出最优解的方式引入“正规方程” 03 逻辑回归 3.1 逻辑函数一个常用的逻辑函数为 S 形函数Sigmoid function公式为函数图像为假定 ℎx的作用是对于给定的输入变量根据选择的参数计算输出变量1 的可能性。如 3.2 判定边界已知z0, g(z)0.5则边界条件为z0时的条件且有 3.3 代价函数函数有许多局部最小值将会影响梯度下降算法寻找全局最小值。 3.4 简化的成本函数和梯度下降上面的表达式可以变化为最小化代价函数的方法是使用梯度下降法(gradient descent)。需要反复更新每个参数式子如下优化代价函数的不同方法共轭梯度法 BFGS (变尺度法) 和 L-BFGS (限制变尺度法) 04 正则化 4.1 过拟合问题第一个模型是一个线性模型欠拟合不能很好地适应我们的训练集第三个模型是一个四次方的模型过于强调拟合原始数据而丢失了算法的本质预测新数据。对于第三个模型可以看出若给出一个新的值使之预测它将表现的很差是过拟合虽然能非常好地适应我们的训练集但在新输入变量进行预测时可能会效果不好而中间的模型似乎最合适。出现过拟合问题常从两个角度思考处理方法 1丢弃一些不能帮助我们正确预测的特征如PCA 2正则化。保留所有的特征但是减少参数的大小 4.2 代价函数若在之前的回归问题中我们的模型为我们可以清楚是高次项导致了过拟合的产生尝试思考在一定程度上让高次项的系数减小。因此我们尝试对代价函数进行修改对高次项的系数设置一些“惩罚”。这样做的话是尝试最小化代价时将这个“惩罚”也纳入考虑并导致最终选择较小一些的高次项的系数。修改后的代价函数为假如有非常多的特征不知道其中哪些特征我们要惩罚直接将对所有的特征进行惩罚并且让代价函数最优化的软件来选择这些惩罚的程度。这样得到了一个较为简单的能防止过拟合问题的假设其中λ也被称为“正则化参数”。根据惯例我们不对进行惩罚。注意正则化参数λ不可过大过大则会把所有参数都最小化。对于逻辑回归的正则化表达式为 05 神经网络了解基本结构输入层隐含层输出层。将神经网络的分类定义为两种二类分类和多类分类。从前往后算到最后一层输出的预测方式称为正向传播方法。 5.1 代价函数原来只有一个输出变量时的代价函数为我们可以有多个输出变量。这里假设我们的输出维度为K即K个输出变量代价函数更新为这个更复杂一点的代价函数与之前代价函数的区别是对于每一行特征我们都会给出K个预测。利用循环对每一行特征都可预测出K个不同结果然后再利用循环在K个预测中选择可能性最高的一个将其与y中实际数据进行比较。 5.2 反向传播算法之前在计算神经网络预测结果时我们采用的是正向传播方法即从第一层正向到最后一层的计算。但是为了计算代价函数的偏导数我们需要采用的事一种反向传播算法。即先计算最后一层的误差再从后往前求出一层又一层的误差。以一个四层的神经网络为例从最后一层的误差开始计算误差是激活单元之间的误差。由于第一层是输入变量故不存在误差。当有了所有误差的表达式后便可以计算代价函数的偏导数其中 l代表目前所计算的是第几层。 j代表目前计算层中的激活单元的下标也将是下一层的第j个输入变量的下标。 i代表下一层中误差单元的下标是受到权重矩阵中第i行影响的下一层中的误差单元的下标。 PS反向传播会有点难以理解先学会用再说是否搞明白了原理。 5.3 梯度检验对一个较为复杂的模型例如神经网络使用梯度下降算法时可能会存在一些不容易察觉的错误。即虽然代价看上去在不断减小但最终的结果可能并不是最优解。为了避免这样的问题采取一种叫做梯度的数值检验Numerical Gradient Checking方法。这种方法是通过估计梯度值来检验计算出的导数值是否真的是要求的。对梯度的估计采用的方法是在代价函数上沿着切线的方向选择离两个非常近的点然后计算两个点的平均值用以估计梯度。 5.4 模型的检验通常将数据集分为训练集、交叉验证集、测试集。例如下面按照6:2:2 的比例分 5.5 诊断偏差和方差当运行一个学习算法时如果这个算法的表现不理想常为两种情况偏差比较大方差比较大。对应的问题就是欠拟合和过拟合的问题。例如通常会通过将训练集和交叉验证集的代价函数误差与多项式的次数绘制在同一张图表上来帮助分析对于训练集当d 较小时模型拟合程度更低误差较大随着d的增长拟合程度提高误差减小。对于交叉验证集当d较小时模型拟合程度低误差较大但是随着d的增长误差呈现先减小后增大的趋势转折点是我们的模型开始过拟合训练数据集的时候。则有训练集误差和交叉验证集误差近似时偏差/欠拟合交叉验证集误差远大于训练集误差时方差/过拟合 5.6 正则化和偏差/方差在训练模型的过程中常会使用一些正则化方法来防止过拟合。但可能会正则化的程度太高或太小了即在选择 λ 的值时也需要注意λ的选择问题。我们选择一系列的想要测试的λ值通常是 0-10 之间的呈现 2 倍关系的值如0,0.01,0.02,0.04,0.08,0.15,0.32,0.64,1.28,2.56,5.12,10共 12 个。同样把数据分为训练集、交叉验证集和测试集。将训练集和交叉验证集模型的代价函数误差与 λ 的值绘制在一张图表上。 5.7 学习曲线也可使用学习曲线来判断某一个学习算法是否处于偏差、方差问题。对于高偏差/欠拟合作为例子尝试用一条直线来适应下面的数据可以看出无论训练集有多么大误差都不会有太大改观即在高偏差/欠拟合的情况下增加数据到训练集不一定能有帮助。对于高方差/过拟合假设使用一个非常高次的多项式模型并且正则化非常小可以看出当交叉验证集误差远大于训练集误差时往训练集增加更多数据可以提高模型的效果。即在高方差/过拟合的情况下增加更多数据到训练集可能可以提高算法效果。解决思路获得更多的训练实例——解决高方差尝试减少特征的数量——解决高方差尝试获得更多的特征——解决高偏差尝试增加多项式特征——解决高偏差尝试减少正则化程度 λ——解决高偏差尝试增加正则化程度 λ——解决高方差 5.8 其他概念类偏斜情况表现为训练集中有非常多的同一种类的实例只有很少或没有其他类的实例。例如我们希望用算法来预测癌症是否是恶性的。在我们的训练集中只有 0.5%的实例是恶性肿瘤。假设我们编写一个非学习而来的算法在所有情况下都预测肿瘤是良性的那么误差只有 0.5%。然而我们通过训练而得到的神经网络算法却有 1%的误差。这时误差的大小是不能视为评判算法效果的依据的。因此我们将算法预测的结果分为四类正确肯定True Positive,TP预测为真实际为真正确否定True Negative,TN预测为假实际为假错误肯定False Positive,FP预测为真实际为假错误否定False Negative,FN预测为假实际为真定义查准率TP/(TPFP)。例在所有我们预测有恶性肿瘤的病人中实际上有恶性肿瘤的病人的百分比越高越好。查全率TP/(TPFN)。例在所有实际上有恶性肿瘤的病人中成功预测有恶性肿瘤的病人的百分比越高越好。对于刚才那个总是预测病人肿瘤为良性的算法其查全率是 0。因此查准率和查全率可作为遇到偏斜类问题的评估度量值。再很多应用中我们希望能够保证查准率和查全率的相对平衡。

查看全文

http://www.pierceye.com/news/390778/