当前位置: 首页 > news >正文

如果自己做网站免费咨询保险

如果自己做网站,免费咨询保险,国外网站开发,品牌设计书籍回归问题的条件/前提#xff1a; 1#xff09; 收集的数据 2#xff09; 假设的模型#xff0c;即一个函数#xff0c;这个函数里含有未知的参数#xff0c;通过学习#xff0c;可以估计出参数。然后利用这个模型去预测/分类新的数据。 1. 线性回归 假设 特征 和 结果 都… 回归问题的条件/前提 1 收集的数据 2 假设的模型即一个函数这个函数里含有未知的参数通过学习可以估计出参数。然后利用这个模型去预测/分类新的数据。 1. 线性回归 假设 特征 和 结果 都满足线性。即不大于一次方。这个是针对 收集的数据而言。 收集的数据中每一个分量就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性模型函数向量表示形式 这个就是一个组合问题已知一些数据如何求里面的未知参数给出一个最优解。 一个线性矩阵方程直接求解很可能无法直接求解。有唯一解的数据集微乎其微。 基本上都是解不存在的超定方程组。因此需要退一步将参数求解问题转化为求最小误差问题求出一个最接近的解这就是一个松弛求解。 求一个最接近解直观上就能想到误差最小的表达形式。仍然是一个含未知参数的线性模型一堆观测数据其模型与数据的误差最小的形式模型与数据差的平方和最小 这就是损失函数的来源。接下来就是求解这个函数的方法有最小二乘法梯度下降法。 http://zh.wikipedia.org/wiki/%E7%BA%BF%E6%80%A7%E6%96%B9%E7%A8%8B%E7%BB%84 最小二乘法 是一个直接的数学求解公式不过它要求X是列满秩的 梯度下降法 分别有梯度下降法批梯度下降法增量梯度下降。本质上都是偏导数步长/最佳学习率更新收敛的问题。这个算法只是最优化原理中的一个普通的方法可以结合最优化原理来学就容易理解了。 2. 逻辑回归 逻辑回归与线性回归的联系、异同 逻辑回归的模型 是一个非线性模型sigmoid函数又称逻辑回归函数。但是它本质上又是一个线性回归模型因为除去sigmoid映射函数关系其他的步骤算法都是线性回归的。可以说逻辑回归都是以线性回归为理论支持的。 只不过线性模型无法做到sigmoid的非线性形式sigmoid可以轻松处理0/1分类问题。 另外它的推导含义仍然与线性回归的最大似然估计推导相同最大似然函数连续积这里的分布可以使伯努利分布或泊松分布等其他分布形式求导得损失函数。 逻辑回归函数 表现了0,1分类的形式。 应用举例 是否垃圾邮件分类 是否肿瘤、癌症诊断 是否金融欺诈 3. 一般线性回归 线性回归 是以 高斯分布 为误差分析模型 逻辑回归 采用的是 伯努利分布 分析误差。 而高斯分布、伯努利分布、贝塔分布、迪特里特分布都属于指数分布。 而一般线性回归在x条件下y的概率分布 p(y|x) 就是指 指数分布. 经历最大似然估计的推导就能导出一般线性回归的 误差分析模型最小化误差模型。 softmax回归就是 一般线性回归的一个例子。 有监督学习回归针对多类问题逻辑回归解决的是二类划分问题如数字字符的分类问题0-9,10个数字y值有10个可能性。 而这种可能的分布是一种指数分布。而且所有可能的和 为1则对于一个输入的结果其结果可表示为 参数是一个k维的向量。 而代价函数 是逻辑回归代价函数的推广。 而对于softmax的求解没有闭式解法高阶多项方程组求解仍用梯度下降法或L-BFGS求解。 当k2时softmax退化为逻辑回归这也能反映softmax回归是逻辑回归的推广。 线性回归逻辑回归softmax回归 三者联系需要反复回味想的多了理解就能深入了。 4. 拟合拟合模型/函数 由测量的数据估计一个假定的模型/函数。如何拟合拟合的模型是否合适可分为以下三类 合适拟合 欠拟合 过拟合 看过一篇文章附录的图示理解起来很不错 欠拟合 合适的拟合 过拟合 过拟合的问题如何解决 问题起源模型太复杂参数过多特征数目过多。 方法 1 减少特征的数量有人工选择或者采用模型选择算法 http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html 特征选择算法的综述 2 正则化即保留所有特征但降低参数的值的影响。正则化的优点是特征很多时每个特征都会有一个合适的影响因子。 5. 概率解释线性回归中为什么选用平方和作为误差函数 假设模型结果与测量值 误差满足均值为0的高斯分布即正态分布。这个假设是靠谱的符合一般客观统计规律。 数据x与y的条件概率 若使 模型与测量数据最接近那么其概率积就最大。概率积就是概率密度函数的连续积这样就形成了一个最大似然函数估计。对最大似然函数估计进行推导就得出了求导后结果 平方和最小公式 6. 参数估计 与 数据的关系 拟合关系 7. 错误函数/代价函数/损失函数 线性回归中采用平方和的形式一般都是由模型条件概率的最大似然函数 概率积最大值求导推导出来的。 统计学中损失函数一般有以下几种 1 0-1损失函数 L(Y,f(X)){1,0,Y≠f(X)Yf(X) 2 平方损失函数 L(Y,f(X))(Y−f(X))2 3 绝对损失函数 L(Y,f(X))|Y−f(X)| 4 对数损失函数 L(Y,P(Y|X))−logP(Y|X) 损失函数越小模型就越好而且损失函数 尽量 是一个凸函数便于收敛计算。 线性回归采用的是平方损失函数。而逻辑回归采用的是 对数 损失函数。 这些仅仅是一些结果没有推导。 8. 正则化 为防止过度拟合的模型出现过于复杂的模型在损失函数里增加一个每个特征的惩罚因子。这个就是正则化。如正则化的线性回归 的 损失函数 lambda就是惩罚因子。 正则化是模型处理的典型方法。也是结构风险最小的策略。在经验风险误差平方和的基础上增加一个惩罚项/正则化项。 线性回归的解也从 θ(XTX)−1XTy 转化为 括号内的矩阵即使在样本数小于特征数的情况下也是可逆的。 逻辑回归的正则化 从贝叶斯估计来看正则化项对应模型的先验概率复杂模型有较大先验概率简单模型具有较小先验概率。这个里面又有几个概念。 什么是结构风险最小化先验概率模型简单与否与先验概率的关系 经验风险、期望风险、经验损失、结构风险 期望风险真实风险可理解为 模型函数固定时数据 平均的 损失程度或“平均”犯错误的程度。 期望风险是依赖损失函数和概率分布的。 只有样本是无法计算期望风险的。 所以采用经验风险对期望风险进行估计并设计学习算法使其最小化。即经验风险最小化Empirical Risk MinimizationERM而经验风险是用损失函数来评估的、计算的。 对于分类问题经验风险就训练样本错误率。 对于函数逼近拟合问题经验风险就平方训练误差。 对于概率密度估计问题ERM就是最大似然估计法。 而经验风险最小并不一定就是期望风险最小无理论依据。只有样本无限大时经验风险就逼近了期望风险。 如何解决这个问题 统计学习理论SLT支持向量机SVM就是专门解决这个问题的。 有限样本条件下学习出一个较好的模型。 由于有限样本下经验风险Remp[f]无法近似期望风险R[f] 。因此统计学习理论给出了二者之间的关系R[f] ( Remp[f] e ) 而右端的表达形式就是结构风险是期望风险的上界。而e g(h/n)是置信区间是VC维h的增函数也是样本数n的减函数。 VC维的定义在 SVMSLT中有详细介绍。e依赖h和n若使期望风险最小只需关心其上界最小即e最小化。所以需要选择合适的h和n。这就是结构风险最小化Structure Risk MinimizationSRM. SVM就是SRM的近似实现SVM中的概念另有一大筐。就此打住。 1范数2范数 的物理意义 范数能将一个事物映射到非负实数且满足非负性齐次性三角不等式。是一个具有“长度”概念的函数。 1范数为什么能得到稀疏解 压缩感知理论求解与重构求解一个L1范数正则化的最小二乘问题。其解正是 欠定线性系统的解。 2范数为什么能得到最大间隔解 2范数代表能量的度量单位用来重构误差。 以上几个概念理解需要补充。 9. 最小描述长度准则 即一组实例数据存储时利用一模型编码压缩。模型长度加上压缩后长度即为该数据的总的描述长度。最小描述长度准则就是选择 总的描述长度最小的模型。 最小描述长度MDL准则一个重要特性就是避免过度拟合现象。 如利用贝叶斯网络压缩数据一方面 模型自身描述长度 随模型复杂度的增加而增加 另一方面 对数据集描述的长度随模型复杂度的增加而下降。因此 贝叶斯网络的 MD L总是力求在模型精度和模型复杂度之间找到平衡。当模型过于复杂时最小描述长度准则就会其作用限制复杂程度。 奥卡姆剃刀原则 如果你有两个原理它们都能解释观测到的事实那么你应该使用简单的那个直到发现更多的证据。 万事万物应该尽量简单而不是更简单。 11. 凸松弛技术 将组合优化问题转化为易于求解极值点的凸优化技术。凸函数/代价函数的推导最大似然估计法。 12. 牛顿法求解 最大似然估计 前提条件求导迭代似然函数可导且二阶可导。 迭代公式 若是 向量形式 H就是 n*n 的hessian矩阵了。 特征当靠近极值点时牛顿法能快速收敛而在远离极值点的地方牛顿法可能不收敛。 这个的推导 这点是与梯度下降法的收敛特征是相反的。 线性与非线性 线性一次函数非线性输入、输出不成正比非一次函数。 线性的局限性xor问题。线性不可分形式 x  0 0  x 而线性可分是只用一个线性函数将数据分类。线性函数直线。 线性无关各个独立的特征独立的分量无法由其他分量或特征线性表示。 核函数的物理意义 映射到高维使其变得线性可分。什么是高维如一个一维数据特征x转换为xx^2, x^3就成为了一个三维特征且线性无关。一个一维特征线性不可分的特征在高维就可能线性可分了。 逻辑回归logicalistic regression 本质上仍为线性回归为什么被单独列为一类 其存在一个非线性的映射关系处理的一般是二元结构的01问题是线性回归的扩展应用广泛被单独列为一类。 而且如果直接应用线性回归来拟合 逻辑回归数据就会形成很多局部最小值。是一个非凸集而线性回归损失函数 是一个 凸函数即最小极值点即是全局极小点。模型不符。 若采用 逻辑回归的 损失函数损失函数就能形成一个 凸函数。 多项式样条函数拟合 多项式拟合模型是一个多项式形式样条函数模型不仅连续而且在边界处高阶导数也是连续的。好处是一条光滑的曲线能避免边界出现震荡的形式出现龙格线性 http://baike.baidu.com/view/301735.htm 以下是几个需慢慢深入理解的概念 无结构化预测模型 结构化预测模型 什么是结构化问题 adaboost svm lr 三个算法的关系。 三种算法的分布对应 exponential loss指数 损失函数 hinge loss log loss对数损失函数 无本质区别。应用凸上界取代0、1损失即凸松弛技术。从组合优化到凸集优化问题。凸函数比较容易计算极值点。
http://www.pierceye.com/news/34757/

相关文章:

  • 碧江网站建设怎么在百度上制作自己的网站
  • 南宁网站建设哪个好wordpress首页固定页面
  • 中山做网站的公司介绍移动互联网的网站有哪些
  • jsp小型网站开发深圳公司网站开发
  • 江西省建设厅业绩网站网站降权不更新文章可以吗
  • jsp网站开发公司建设网站工作室
  • 广州网站优化软件六盘水网络推广
  • 网站的控制面板有哪些网站可以免费发布广告
  • 渭南建设工程信息网网站seo分析工具
  • 教学网站的设计如何开网站卖东西
  • 茶网站开发的意义目的天津网站排名提升
  • 如何修改网站后台的用户名和密码成都网站建设app开发
  • p2p理财网站建设龙华网站推广培训
  • php网站qq互联经销商网
  • 合江县住房建设规划局网站课程精品网站开发
  • 湖南火电建设有限公司招标网站wordpress 怎么汉化主题
  • 修改wordpress地址网站打不开百度风云榜排行榜
  • 响应式网站开发原理建设网站需要申请
  • 商业网站建设常识wordpress改登陆界面
  • 手表交易网站公司网站建设代码都写完了
  • 网站做排名教程快速建站视频
  • 无锡制作网站价格自己公司的网站怎么编辑
  • 吕梁网站制作在线推广企业网站的方法是
  • 网站规划与开发实训室建设安徽省建设工程信息网怎么打不开了
  • 常德网站公司类似钉钉的企业管理软件
  • 软件工程师证怎样考取贵阳做网站seo
  • 网站建设开票内容是什么意思上海什么公司最有名
  • asp建的网站上传文章鞍山网络顾问有限公司
  • 触摸屏互动网站建设案例域名 利用域名做网站 邮箱
  • 网站建设的步骤以及流程做网站是怎样赚钱的