模板网站 建设教材,电子商务官方网站,12389举报网站建设项目,网络餐饮服务第三方平台提供者文章目录 一、定义二、概念梳理1.有监督学习2.集成学习3. bootstrap4. bagging5. 决策树6.剪枝 二、实现 一、定义
随机森林 是由多个 决策树 组成的 bagging 算法#xff0c;bagging是 集成学习 的一种#xff0c;集成学习是 有监督学习 的一种 二、概念梳理
1.有监督学习… 文章目录 一、定义二、概念梳理1.有监督学习2.集成学习3. bootstrap4. bagging5. 决策树6.剪枝 二、实现 一、定义
随机森林 是由多个 决策树 组成的 bagging 算法bagging是 集成学习 的一种集成学习是 有监督学习 的一种 二、概念梳理
1.有监督学习
根据已有的数据集知道输入和输出结果之间的关系。根据这种已知的关系训练得到一个最优的模型。也就是说在监督学习中训练数据既有特征(feature)又有标签(label)通过训练让机器可以自己找到特征和标签之间的联系在面对只有特征没有标签的数据时可以判断出标签。 例如回归问题中的房价预测用已知的房屋面积、房间朝向、卧室数量等特征和已知的房屋成交价格标签训练一个模型让机器自己找到房屋特征和房屋成交价格之间的内在联系从而达到房价预测的目的
2.集成学习
在有监督学习算法中我们的目标是学习出一个稳定的且在各个方面表现都较好的模型但实际情况往往不这么理想有时我们只能得到多个有偏好的模型弱监督模型在某些方面表现的比较好。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型集成学习潜在的思想是即便某一个弱分类器得到了错误的预测其他的弱分类器也可以将错误纠正回来。
集成学习在各个规模的数据集上都有很好的策略如下
当数据集足够大时划分成多个小数据集学习多个模型进行组合数据集较小时利用bootstrap方法进行抽样得到多个数据集分别训练多个模型再进行组合
3. bootstrap
bootstrap也称为自助法它是一种有放回的抽样方法目的为了得到统计量的分布以及置信区间。具体步骤如下
采用重抽样方法有放回抽样从原始样本中抽取一定数量的样本根据抽出的样本计算想要得到的统计量T重复上述N次一般大于1000得到N个统计量T根据这N个统计量即可计算出统计量的置信区间
4. bagging
Bagging是bootstrap aggregating的简写 在Bagging方法中利用bootstrap方法从整体数据集中采取有放回抽样得到N个数据集在每个数据集上学习出一个模型最后的预测结果利用N个模型的输出得到。 具体到不同类型的问题采取如下策略↓
分类问题采用N个模型预测投票的方式回归问题采用N个模型预测平均的方式
5. 决策树
决策树是一种树形结构其中每个内部节点表示一个属性上的测试每个分支代表一个测试输出每个叶节点代表一种类别。 在决策树算法中有对应的剪枝算法。将比较复杂的决策树化简为较为简单的版本并且不损失算法的性能。
6.剪枝
剪枝是决策树算法应对过拟合的一种策略因为在学习过程中决策树根据训练样本进行拟合生成了针对于训练数据集精确性极高的模型。但是训练数据集不可避免是一种有偏的数据。所以我们为了提高决策树的泛化性能采取了剪枝的策略。使得决策树不那么对于训练数据精确分类从而适应任何数据。
剪枝的策略可以分为预剪枝和后剪枝两种↓
概念
预剪枝对每个结点划分前先进行估计若当前结点的划分不能带来决策树的泛化性能的提升则停止划分并标记为叶结点。后剪枝现从训练集生成一棵完整的决策树然后自底向上对非叶子结点进行考察若该结点对应的子树用叶结点能带来决策树泛化性能的提升则将该子树替换为叶结点。
优缺点
预剪枝 优点思想简单算法高效可以降低过拟合风险减少训练时间。 缺点可能存在欠拟合的风险。后剪枝 优点欠拟合风险小泛化能力优于预剪枝。 缺点相较于预剪枝训练开销大。 二、实现
将训练样本用bootstrap方法有放回地随机抽取k个新的自助样本集并由此构建k棵决策树再根据每棵树的决策结果进行综合判断。
代码部分可以参考这篇文章 https://blog.csdn.net/weixin_43721000/article/details/131600072