当前位置: 首页 > news >正文

宁城网站建设磁力宝

宁城网站建设,磁力宝,网站开发付款,出入南京最新通知今天在预测分析领域#xff0c;决策树是可应用于回归和分类任务的算法之一 决策树背后的想法是#xff0c;根据数据集中的特征对当时响应变量的贡献方式#xff0c;递归地构建一个颠倒的树状结构。 在每次迭代中#xff0c;将以使得所得模型最小化成本函数的方式选择特征。 该结… 在预测分析领域决策树是可应用于回归和分类任务的算法之一 决策树背后的想法是根据数据集中的特征对当时响应变量的贡献方式递归地构建一个颠倒的树状结构。 在每次迭代中将以使得所得模型最小化成本函数的方式选择特征。 该结构从顶部的根节点开始然后分支并连接到其他节点最终通向树的终端节点或叶子。 树中的每个节点代表一个特征每个链接或分支代表一个决策每个叶子代表一个结果响应变量的类别或连续值 优点缺点 决策树背后的简单性在于通过确定任何给定点最重要的特征来创建模型的方式。 由于它不假设变量之间存在线性或任何关系因此它不仅限于线性或其他相关变量 - 它可以应用于任何数据集。 此外与许多其他算法不同在应用决策树之前不需要进行大量的数据操作 它有时被称为贪婪算法因为它在每一点都试图最大程度地最小化成本函数。 这种过度尝试最小化成本函数可能会导致训练数据的过度拟合从而导致在测试数据上进行预测时出现高方差。通常采用剪枝或装袋等技术来解决这一问题 决策树的类型 根据所使用的成本最小化技术决策树可以有多种分类其中重要的几个是 CART分类和回归树— 使用基尼杂质测量来计算每次迭代的信息增益 ID3迭代二分器 3— 使用熵函数计算信息增益指标 在这里我们将研究 ID3 决策树的熵函数并设计一种算法来计算任何迭代的熵 熵与信息增益 每个特征的每个唯一值的熵计算如下 该特征的信息增益计算如下 其中E(T) 是响应变量的熵 执行 我们将在这里使用 UCI 数据存储库中的 Balloons 数据集。它代表实验的不同条件 根据 4 个预测特征确定响应变量“膨胀”颜色、大小、行为和年龄 # data  Balloons 数据集# N  列数# target  响应变量# en  目标变量的熵# cats  响应变量的唯一值计数字典# vals  当前特征的唯一值计数字典for i in range(0,N-1):     xdata.columns[i]     ig0     for k, v in vals.items():         ent0                 for k1 in cats.keys():             ndata.loc[(data[target]k1)  (data[x]k), x].count() prob  -(n/v) * np.log(n             /v) #计算概率            ent ent  prob            #计算熵        info  info  ((v/total)*ent)  #计算信息        gain  en - ig  #计算信息增益 第一次迭代的背后 让我们看看如何使用上述函数计算第一次迭代的熵和信息增益 Calculate Entropy  Information Gain w.r.t. “Inflated”Column “color”:‘YELLOW’: 32, ‘PURPLE’: 28“Color” YELLOW with “Inflated” TRUE — 19“Color” YELLOW with “Inflated” FALSE — 13“Color” PURPLE with “Inflated” TRUE — 12“Color” PURPLE with “Inflated” FALSE — 16E(YELLOW)  (-19/32)*log(19/32)  (-13/32)*log(13/32)  0.675E(PURPLE)  (-12/28)*log(12/28)  (-16/28)*log(16/28)  0.682I(Color)  (32/60) * 0.675  (28/60) * 0.682 0.678IG(Color)  I(Inflated) — I(Color)  0.693–0.678 0.0149 同样计算剩余列的熵和信息增益 IG(Size)  0.0148IG(Act)  0.131IG(Age)  0.130 选择列“Act”作为根节点因为它具有最高的信息增益 下一步 然后该算法将递归执行以下步骤来构建决策树超出了本文的范围 具有最高信息增益的特征将被指定为该迭代的节点 该节点的分支将由该节点可能的每个唯一值条件/决策形成 分支将通向其他节点具体取决于后续特征和条件 如果没有进一步可能的特征或条件将创建叶节点并且不会进行进一步的分支 这样就可以递归地构建决策树。 然后可以应用该模型来预测响应变量的值或类别 UCI机器学习数据集仓库中的Balloons数据集: 数据集信息 数据集名称:Balloons 数据样本数:76个 特征数:4个 目标变量:1个,气球的颜色(Yellow或Purple) 特征信息 Color:气球的颜色(Yellow,Purple) Size:气球的大小(小,中,大) Act:气球的行为(向上漂浮,向下坠落) Age:气球的年龄(新,中,老) 数据集结构 每行表示一个气球样本,包含Color目标变量和其他3个特征。 数据集用途 这个数据集可以用于分类任务,以气球的其他特征预测其颜色。可以建立分类模型对颜色进行预测。 数据分析 可以计算信息熵、信息增益等,为分类模型选择最优特征。也可以绘制特征分布,了解样本之间的相关性。 以上简要概述了这个小数据集的基本情况。它提供了一个使用真实数据进行分类建模练习的良好 starters例子。 本文由 mdnice 多平台发布
http://www.pierceye.com/news/220254/

相关文章:

  • 找人做彩票网站多少钱茶叶网站flash模板
  • 海口制作网站企业深圳网站建设seo推广优化
  • 东莞建设质监网站建设网站方式有哪些
  • 中学网站建设书最好的网站设计开发公司
  • 下载网站源码聊城seo培训
  • 专用于做网站公司推广的方式有哪些
  • 网站如何规划c 手机网站开发模板
  • 哈尔滨网站建设优化公司室内设计网站
  • 厚街做网站的公司wordpress出现百度抓取404页面
  • 四川南充网站建设西安网站建设推广优化
  • 做企业门户网站都连连电商网站开发公司
  • 微商城网站建设价位公司要想做个网站这么弄
  • wordpress文章所属栏目关键词排名优化易下拉教程
  • 网站主题咋做免费网页模板素材网站
  • 网站建设对旅游意义公众号运营策划
  • 成都专业网站制作关于论文网站开发参考文献
  • 免费做代理郑州seo招聘
  • 做网站系统更新后wordpress
  • 兰州网站建站2024免费网站推广
  • 深圳模板建站企业网站出现搜索
  • app开发网站模板该网站正在紧急升级维护中
  • 公众号编辑器365保定seo推广
  • 陕西整站关键词自然排名优化外贸获客渠道有哪些
  • 网站策划需要具备什么福州高端建站
  • 域名注册没有网站美食网页设计素材图片
  • wordpress网站在哪里修改密码ps做网站要求高吗
  • 企业网站带商城源码Audiology wordpress
  • 星月教你做网站东营城乡建设局官网
  • 镇江网站建设开发旺店通erp系统
  • 体育直播网站建设深圳制作小程序