当前位置: 首页 > news >正文

环球易购招聘网站建设项目管理软件工具

环球易购招聘网站建设,项目管理软件工具,wordpress 知言主题,专业做家具的网站文章目录1. 统计学习2. 统计学习分类2.1 基本分类2.1.1 监督学习 supervised learning2.1.2 无监督学习 unsupervised learning2.1.3 强化学习 reinforcement learning2.1.4 半监督学习 semi-supervised learning、主动学习 active learning2.2 按模型分类2.3 按算法分类2.4 按… 文章目录1. 统计学习2. 统计学习分类2.1 基本分类2.1.1 监督学习 supervised learning2.1.2 无监督学习 unsupervised learning2.1.3 强化学习 reinforcement learning2.1.4 半监督学习 semi-supervised learning、主动学习 active learning2.2 按模型分类2.3 按算法分类2.4 按技巧分类3. 统计学习方法三要素4. 模型评估与选择过拟合Python代码5. 正则化与交叉验证6. 泛化能力7. 生成模型与判别模型8. 监督学习应用8.1 分类问题8.2 标注问题8.3 回归问题1. 统计学习 统计学习statistical learning是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习statistical machine learning。 研究对象数据 Data目的构建模型学习数据中的规律预测未知的新数据方法监督学习、无监督学习半监督学习、强化学习、主动学习等 2. 统计学习分类 2.1 基本分类 2.1.1 监督学习 supervised learning 数据都是带有标注的本质 学习输入到输出的映射的统计规律。 2.1.2 无监督学习 unsupervised learning 是指从无标注数据中学习预测模型。本质 学习数据中的统计规律或潜在结构。 2.1.3 强化学习 reinforcement learning 是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。本质 学习最优的序贯决策从一个策略开始不断的搜索更优的策略。 2.1.4 半监督学习 semi-supervised learning、主动学习 active learning 半监督学习semi-supervised learning是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常有少量标注数据、大量未标注数据。 半监督学习旨在利用未标注数据中的信息辅助标注数据进行监督学习以较低的成本达到较好的学习效果。主动学习active learning是指机器不断主动给出实例让教师进行标注然后利用标注数据学习预测模型的机器学习问题。 通常的监督学习使用给定的标注数据往往是随机得到的可以看作是“被动学习”主动学习的目标是找出对学习最有帮助的实例让教师标注以较小的标注代价达到较好的学习效果。 半监督学习和主动学习更接近监督学习。 2.2 按模型分类 概率模型 决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型非概率模型感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析以及神经网络基本概率公式 加法规则 P(x)∑yP(x,y)P(x) \sum\limits_y P(x,y)P(x)y∑​P(x,y) 乘法规则 P(x,y)P(x)P(y∣x)P(x,y) P(x)P(y|x)P(x,y)P(x)P(y∣x) 线性模型感知机、线性支持向量机、k近邻、k均值、潜在语义分析非线性 核函数支持向量机、AdaBoost、神经网络、深度学习 参数化模型模型由优先维参数描述感知机、朴素贝叶斯、逻辑斯谛回归、k均值、高斯混合模型非参数化模型模型参数不固定随着训练数据增加而增大决策树、支持向量机、AdaBoost、k近邻、潜在语义分析、概率潜在语义分析、潜在狄利克雷分配 参数化模型适合问题简单的情况现实问题比较复杂非参数化模型更有效。 2.3 按算法分类 在线学习online learning是指每次接受一个样本进行预测之后学习模型并不断重复该操作。批量学习batch learning批量学习一次接受所有数据学习模型之后进行预测。 有些场景要求必须是在线的。比如数据依次达到无法存储系统需要及时做出处理数据规模很大不可能一次处理所有数据数据的模式随时间动态变化需要算法快速适应新的模式不满足独立同分布假设。 利用随机梯度下降的感知机学习算法就是在线学习算法。 在线学习通常更难很难学到预测准确率更高的模型因为每次模型更新中可利用的数据有限。 2.4 按技巧分类 贝叶斯学习Bayesian learning后验概率核方法kernel method是使用核函数表示和学习非线性模型的一种机器学习方法 核方法可以把线性模型扩展到非线性模型直接的做法是显式地定义从输入空间低维空间到特征空间高维空间的映射在特征空间中进行内积计算。 比如支持向量机把输入空间的线性不可分问题转化为特征空间的线性可分问题 3. 统计学习方法三要素 方法模型策略算法方法 模型策略算法方法模型策略算法 模型输入空间输出空间决策函数集合策略按什么准则选择最优模型 损失函数代价函数度量预测错误程度损失越小模型越好 0-1损失、平方损失、绝对损失、对数损失 风险函数损失函数的期望 经验风险最小化损失最小样本足够大时效果好样本小时易产生过拟合 结构化风险最小化为防止过拟合加入正则化项 算法最优化问题的高效迭代求解 4. 模型评估与选择 训练误差 测试误差过拟合与模型选择 一味追求对训练数据的预测能力模型的复杂度则往往会比真模型更高。这种现象称为过拟合over-fitting。 过拟合是指学习时选择的模型所包含的参数过多模型对已知数据预测得很好但对未知数据预测得很差的现象。 模型选择旨在避免过拟合并提高模型的预测能力。 过拟合Python代码 # -*- coding:utf-8 -*- # Python 3.7 # Time: 2020/2/26 23:58 # Author: Michael Ming # Website: https://michael.blog.csdn.net/ # File: 1.introduction_ploy_fitting.py # 参考代码https://github.com/wzyonggege/statistical-learning-method 目标函数 2 , 加上一个正态分布的噪音干扰用M次多项式去拟合import numpy as np import scipy as sp from scipy.optimize import leastsq import matplotlib.pyplot as plt# 真实函数 def real_func(x):return np.sin(2 * np.pi * x) # 2# 多项式拟合函数 def fit_func(p, x):f np.poly1d(p)return f(x)# 残差 def residuals_func(p, x, y):ret fit_func(p, x) - yreturn retdef fitting(x, x_points, y_, y, M0):p_init np.random.rand(M 1) # 随机初始化多项式参数# 最小二乘法p_lsq leastsq(residuals_func, p_init, args(x, y))print(fitting parameters: , p_lsq[0])# 可视化plt.plot(x_points, real_func(x_points), labelreal)plt.plot(x_points, fit_func(p_lsq[0], x_points), labelfitted curve)plt.plot(x, y, bo, labelnoise)plt.title(多项式次数 M%d % (M))plt.rcParams[font.sans-serif] SimHei # 消除中文乱码plt.legend()plt.show()return p_lsqif __name__ __main__:x np.linspace(0, 1, 10)x_points np.linspace(0, 1, 1000)y_ real_func(x)y [np.random.normal(0, 0.1) y1 for y1 in y_] # 加入噪声扰动p_lsq_0 fitting(x, x_points, y_, y, 0)p_lsq_1 fitting(x, x_points, y_, y, 1)p_lsq_3 fitting(x, x_points, y_, y, 3)p_lsq_9 fitting(x, x_points, y_, y, 9)多项式拟合结果M0M1M3M9曲线 9次多项式完全拟合了所有点过拟合了加入L2正则项 def residuals_func_regularization(p,x,y,lambd0.0001):ret fit_func(p,x)-yret np.append(ret, np.sqrt(0.5*lambd*np.square(p)))# 加入L2正则表达式, L1 lambd*abs(p)return ret if __name__ __main__:x np.linspace(0, 1, 10)x_points np.linspace(0, 1, 1000)y_ real_func(x)y [np.random.normal(0, 0.1) y1 for y1 in y_] # 加入噪声扰动p_init np.random.rand(91)p_lsq_9_regularization leastsq(residuals_func_regularization, p_init,args(x,y))plt.plot(x_points,real_func(x_points),labelreal)plt.plot(x_points,fit_func(p_lsq_9[0],x_points),labelfitted curve)plt.plot(x_points,fit_func(p_lsq_9_regularization[0],x_points),labelL2regular)plt.rcParams[font.sans-serif] SimHei # 消除中文乱码plt.rcParams[axes.unicode_minus] False # 正常显示负号plt.plot(x,y,bo,labelnoise)plt.title(展示L2正则下的9次多项式拟合结果)plt.legend()plt.show()5. 正则化与交叉验证 正则化是结构化风险最小化策略的实现在经验风险上正则化一般模型越复杂正则化值就越大正则化可以是模型参数向量的范数L1、L2 范数介绍 交叉验证在许多实际应用中数据是不充足的。为了选择好的模型可以采用交叉验证方法。交叉验证的基本想法是重复地使用数据把给定的数据进行切分将切分的数据集组合为训练集与测试集在此基础上反复地进行训练、测试以及模型选择。 简单交叉验证 首先随机地将已给数据分为两部分训练集测试集如70%训练集30%测试集 然后用训练集在各种条件下例如不同的参数个数训练模型得到不同的模型 在测试集上评价各个模型的测试误差选出测试误差最小的模型。S 折交叉验证 应用最多的是S折交叉验证S-fold cross validation 方法如下 首先随机地将已给数据切分为 S 个互不相交、大小相同的子集 然后利用 S-1 个子集的数据训练模型利用余下的子集测试模型 将这一过程对可能的 S 种选择重复进行 最后选出 S 次评测中平均测试误差最小的模型。留一交叉验证 S 折交叉验证的特殊情形是 SN称为留一交叉验证leave-one-out cross validation往往在数据缺乏的情况下使用。这里N是给定数据集的容量。 6. 泛化能力 学习方法的泛化能力generalization ability是指由该方法学习到的模型对未知数据的预测能力是学习方法本质上重要的性质。 通过测试误差来评价泛化能力。这种评价是依赖于测试数据集。因为测试数据集是有限的很有可能由此得到的评价结果是不可靠的。 泛化误差模型对未知数据预测的误差泛化误差上界 学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的简称为泛化误差上界generalization error bound。 通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。 泛化误差上界通常具有以下性质 它是样本容量的函数当样本容量增加时泛化上界趋于0它是假设空间容量capacity的函数假设空间容量越大模型就越难学泛化误差上界就越大。 7. 生成模型与判别模型 生成方法由数据学习联合概率分布 P(X,Y) ,然后求出条件概率分布 P(Y|X) 作为预测的模型,即生成模型典型的生成模型有朴素贝叶斯法、隐马尔可夫模型判别方法由数据直接学习决策函数 f(X) 或者条件概率分布 P(Y|X) 作为预测的模型即判别模型。判别方法关心的是对给定的输入 X应该预测什么样的输出 Y。典型的判别模型k近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场等 生成方法的特点可以还原出联合概率分布 P(X,Y)而判别方法则不能生成方法的学习收敛速度更快当样本容量增加的时候学到的模型可以更快地收敛于真实模型当存在隐变量时仍可以用生成方法学习,此时判别方法就不能用判别方法的特点直接学习条件概率 P(Y|X) 或决策函数 f(X)直接面对预测往往学习的准确率更高由于直接学习 P(Y|X) 或 f(x)可以对数据进行各种程度上的抽象、定义特征并使用特征因此可以简化学习问题 8. 监督学习应用 8.1 分类问题 从数据中学习一个分类模型或分类决策函数称为分类器classifier分类器对新的输入进行输出的预测称为分类classification可能的输出称为类别class分类的类别为多个时称为多类分类问题 评价分类器性能的指标一般是分类准确率accuracy其定义是对于给定的测试数据集分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上的准确率 对于二类分类问题常用的评价指标是精确率precision与召回率recall。 通常以关注的类为正类其他类为负类分类器在测试数据集上的预测或正确或不正确4种情况出现的总数分别记作 TP——将正类预测为正类数 FN——将正类预测为负类数 FP——将负类预测为正类数 TN——将负类预测为负类数。 PTPTPFPRTPTPFNP \frac{TP}{TPFP} \quad R \frac{TP}{TPFN}PTPFPTP​RTPFNTP​ 图片参考https://www.jianshu.com/p/4434ea11c16c F1F_1F1​ 值是精确率和召回率的调和均值2F11P1R\frac{2}{F_1} \frac{1}{P} \frac{1}{R}F1​2​P1​R1​ F12TP2TPFPFNF_1 \frac{2TP}{2TPFPFN}F1​2TPFPFN2TP​ 许多方法可以分类包括k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等。 在银行业务中可以构建一个客户分类模型对客户按照贷款风险的大小进行分类在网络安全领域可以利用日志数据的分类对非法入侵进行检测在图像处理中分类可以用来检测图像中是否有人脸出现在手写识别中分类可以用于识别手写数字在互联网搜索中网页的分类可以帮助网页的抓取、索引与排序 8.2 标注问题 标注tagging也是一个监督学习问题。 标注问题是分类问题的一个推广标注问题是更复杂的结构预测structure prediction问题的简单形式。 标注问题输入一个观测序列输出一个标记序列或状态序列。标注问题的目标在于学习一个模型使它能够对观测序列给出标记序列作为预测。 注意可能的标记个数是有限的但其组合所成的标记序列的个数是依序列长度呈指数级增长的。 常用方法有隐马尔可夫模型、条件随机场。 标注问题在信息抽取、自然语言处理等领域被广泛应用是这些领域的基本问题。 例如自然语言处理中的词性标注part of speech tagging就是一个典型的标注问题给定一个由单词组成的句子对这个句子中的每一个单词进行词性标注即对一个单词序列预测其对应的词性标记序列。 8.3 回归问题 回归regression用于预测输入变量自变量和输出变量因变量之间的关系特别是当输入变量的值发生变化时输出变量的值随之发生的变化。 回归模型正是表示从输入到输出之间映射的函数。回归问题的学习等价于函数拟合选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据 回归问题按照输入变量的个数分为一元回归和多元回归按照输入变量和输出变量之间关系的类型即模型的类型分为线性回归和非线性回归。最常用的损失函数是平方损失函数在此情况下回归问题可以由著名的最小二乘法least squares求解。许多任务都可以形式化为回归问题如商务领域作为市场趋势预测、产品质量管理、客户满意度调查、投资风险分析的工具。
http://www.pierceye.com/news/332613/

相关文章:

  • 班级网站怎样做ppt模板免费素材
  • 网站建设及运营 多少钱域名抢注哪个平台好
  • 抚顺营销型网站建设吴江开发区人才网
  • 余姚建设网站wordpress百度分享插件
  • iis网站服务器 建立出现问题吉林市城市建设档案馆官方网站
  • wordpress网站图片迁移打开一个网站为繁体字是怎么做的
  • 东莞规划局官方网站做网站要学一些什么
  • 网站动效是代码做的吗网站模板侵权问题
  • 网站开发语言总结有哪些怎么样让网站宣传自己
  • 网站建设公司哪家好找建设网站公司哪家好
  • 网站建设网上学a8直播免费版
  • 网上下载的免费网站模板怎么用灯箱网站开发
  • 四平市建设局网站贵州省民贸民品企业信息管理系统
  • 周口网站制作公司哪家好河南省信息服务平台官网
  • 然后建设自营网站湘潭市优化办
  • 大兴专业网站开发公司皮具网站建设策划书
  • 广告投放跟网站建设一样吗呼和浩特免费制作网站
  • 个人做网站的时代已经过去个人手机网站
  • 用vps做网站深圳广告公司招聘安装工人
  • 建设电影网站怎么上传电影如何建企业网站
  • 响应式网站制作公司org域名购买
  • 石家庄网站建设德信互联科技有限公司爬取漫画数据做网站
  • 国内免费iphone网站百度自然排名优化
  • 自己做网站主机做网站和推广
  • wordpress 淘宝嘉兴做网站优化
  • h5 网站开发流程asp个人网站建设
  • 网站建设 正邦企业邮箱怎么认证
  • 建设流网站项目成都住建局官网首页
  • 网站简历文字如何空行产品如何推广市场
  • 吕梁网站设计腾讯营销平台