汕头网站建设公司哪个好,宜兴做网站的联系方式,济邦建设有限公司官方网站,网络服务器的作用点一下关注吧#xff01;#xff01;#xff01;非常感谢#xff01;#xff01;持续更新#xff01;#xff01;#xff01;
大模型篇章已经开始#xff01;
目前已经更新到了第 22 篇#xff1a;大语言模型 22 - MCP 自动操作 FigmaCursor 自动设计原型
Java篇开…点一下关注吧非常感谢持续更新
大模型篇章已经开始
目前已经更新到了第 22 篇大语言模型 22 - MCP 自动操作 FigmaCursor 自动设计原型
Java篇开始了
MyBatis 更新完毕目前开始更新 Spring一起深入浅出
目前已经更新到了
Hadoop已更完HDFS已更完MapReduce已更完Hive已更完Flume已更完Sqoop已更完Zookeeper已更完HBase已更完Redis 已更完Kafka已更完Spark已更完Flink已更完ClickHouse已更完Kudu已更完Druid已更完Kylin已更完Elasticsearch已更完DataX已更完Tez已更完数据挖掘已更完Prometheus已更完Grafana已更完离线数仓已更完实时数仓正在更新…Spark MLib (正在更新…) Bagging和Boosting区别
数据方面
● Bagging对数据进行采样训练 ● Boosting根据前一轮学习结果调整数据的重要性
投票方面
● Bagging所有学习器平权投票 ● Boosting对学习器进行加权投票
学习顺序
● Bagging学习是并行的每个学习器没有依赖关系 ● Boosting学习是串行的学习有先后顺序
主要作用
● Bagging主要用于提高泛化性能解决过拟合 ● Boosting主要用于提高训练精度解决欠拟合
GBDT
基本介绍
GBDT的全称是Gradient Boosting Decision Tree梯度提升树在传统机器学习算法中GBDT算的上是TOP3的算法。
Decision Tree
无论是处理回归问题还是二分类还是多分类问题GBDT使用的决策树统统都是CART回归树。 对于回归树算法来说最重要的是寻找最佳的划分点那么回归树中可划分点包含了所有的特征的所有可取的值。 在分类树中最佳划分点的判断标准是熵或者基尼系数都是纯度来衡量的但是在回归树中的样本标签华四连续数值所以再使用熵之类的指标不再合适取而代之的是平方误差他能很好的评判拟合程度。
回归决策树
不管是回归决策树还是分类决策树都会存在两个问题 ● 如何选择划分点 ● 如何决定叶节点的输出值
一个回归树对应输入空间即特征空间的一个划分以及在划分单元上的输出值。分类决策树中采用的信息论中的方法信息增益以及信息增益率通过计算选择最佳划分点。
在回归树中采用的是启发式的方法假设数据集有 n 个特征 假设将输入空间划分为M个单元R1、R2…Rm那么每个区域的输出值就是cm avg(yi | xi ∈ Rm) 也就是该区域内所有点y值的平均数
举例 如下图加入要对楼内居民的年龄进行回归将楼划分为3个区域R1R2R3那么R1的输出就是第一列居民年龄的平均值R2输出的就是第二列居民年龄的平均值R3的输出就是第三、四列八个居民年龄的平均值
算法流程
输入训练数据集D 输出回归树 f(x) 在训练数据集所在的输入空间中递归的将每个区域划分为两个子区域并决定每个子区域上的输出值构建二叉决策树 1.选择最优切分特征j与切分点s求解 遍历特征j对固定的切分特征j扫描切分点s选择使得上式达到最小值的对(j,s)
2.用选定的对j,s划分区域并决定相应的输出值 3.继续对两个子区域调用步骤1和2直到满足停止条件。 4.将输入空间划分M个区域 R1R2…Rm生成决策树
测试案例
通过一个实例加深对回归决策树的理解
训练数据
训练数据见下表
计算过程
选择最优的切分特征j与最优切分点s ● 确定第一个问题选择最优切分特征在本数据集中只有一个特征因此最优切分特征自然是X ● 确定第二个问题我们考虑9个切分点[1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5]损失函数定义平方损失函数 Lossy,f(x) (f(x) - y) -y)^2将上述9个切分点依次带入下面的公式 cmavg(yi | xi ∈ Rm)
计算子区域的输出值 例如取 s 1.5此时 R1 {1}, R2 {2,3,4,5,6,7,8,9,10}这两个区域的输出值分别为 ● c1 5.56 ● c2 (省略…) 7.50
同理可以得到其他各切分点的子区域输出值如下表所示
计算损失函数值找到最优切分点 把c1,c2的值代入到同平方损失函数 Loss(y, f(x)) (f(x)- y) ^ 2 当 s 1.5 时 同理计算得到其他各切分点的损失函数值可获得下表 显然取 s 6.5 时m(s)最小因此第一个划分变量【jx, s6.5】
用选定的 (j, s) 划分区域并决定输出值 ● 两个区域分别是 R1{1,2,3,4,5,6}, R2{7,8,9,10} ● 输出值 cm avg(yi | xi ∈ Rm)c1 6, c2 8.91
调用步骤1、2继续划分对R1继续划分 取切分点[1.5,2.5,3.5,4.5,5.5]则各区域的输出值c如下表 计算损失函数m(s)
s3.5m(s)最小。
生成回归树 假设在生成3个区域之后停止划分那么最终生成的回归树形式如下