手机网站地址,有经验的南昌网站设计,如何制作公司官网,家装品牌排行榜前十名目录 算法原理剪枝处理连续值处理缺失值处理多变量决策树 算法原理
从逻辑角度#xff1a;通过一系列if-else语句进行多重判断#xff0c;比如白富美的判断条件#xff08;“白”“富”“美”#xff09;。 从几何角度#xff1a;根据定义的标准进行样本空间的划分。 以二… 目录 算法原理剪枝处理连续值处理缺失值处理多变量决策树 算法原理
从逻辑角度通过一系列if-else语句进行多重判断比如白富美的判断条件“白”“富”“美”。 从几何角度根据定义的标准进行样本空间的划分。 以二分类问题为例我们希望通过一系列的条件进行分类。 以下是算法原理的伪代码图 比较形象的图 输入中的训练集包含了很多样本集合每一个样本中又有很多属性对应伪代码中的 x 1 x_1 x1和 y 1 y_1 y1等属性集则代表用于判断样本应该归到哪一类的判断准则在判断西瓜的例子中就是色泽、大小这种抽象性质。 剪枝处理
目的为了防止模型在训练的过程中将自己的一些特征当成了所有模型都会有的特征手动将一些分支去掉减少分支和过拟合的操作。 预剪枝操作根据经验判断事先将一些用于判断的分支剪掉 后剪枝操作用剪去一些分支作为实验判断最后的结果然后判断要不要剪枝。
比较形象的一幅图
连续值处理
上面分析的是离散情况下的处理但是现实生活中更多见的是连续值的处理。 对于连续值用下面公式进行划分
缺失值处理 多变量决策树 个人感觉这个图非常形象表示了多变量决策树相较于单变量决策树的线性判别多变量分类目的是实现用光滑的曲线实现分类。