网站推广在哪些平台做外链,互联网公司排名情况,公众号开发菜单,建立导购网站可能理解的不对。决策树构建中节点的选择靠的就是信息增益了。信息增益是一种有效的特征选择方法#xff0c;理解起来很简单#xff1a;增益嘛#xff0c;肯定是有无这个特征对分类问题的影响的大小#xff0c;这个特征存在的话#xff0c;会对分类系统带来多少信息量理解起来很简单增益嘛肯定是有无这个特征对分类问题的影响的大小这个特征存在的话会对分类系统带来多少信息量缺了他行不行既然是个增益就是个差了减法计算一下谁减去谁呢这里就用到了信息熵的概念放到分类系统里面信息熵如何计算呢分类系统里面无非是样本xi以及样本的分类结果yi假设这个分类系统有k类那么作为训练集来说分类情况基本就定了是按照样本的各个特征定的。那么在这些样本的信息的前提下分类器有个结果就自然包含了一种信息量在里面可以用信息熵E(S)计算出来。当然大家都知道熵表达的是不确定度分布约均匀越不确定熵越大。那么当把特征f引入的时候会不会对系统的信息量有所影响呢也就引入f之后的系统不确定度E(S|f)是多少呢其实是个条件熵。也就是加入条件f之后不确定度减少了多少信息熵的有效减少量是多少为了计算条件熵我们可以固定f的值也就是根据f在训练集中呈现的值计算条件熵E(S|f)。简单的说就是把根据f划分的各个小系统的信息熵加权求和权重就是各个小系统占系统S的比例(假设f有两个值0、1选0的时候有a个样本样本当然有类别yf是1的时候有b个样本abn(样本总数)那么权重就是a/n和b/n了每个小系统的信息当然跟大系统求法一样了)。那么增益IG(f)E(S)-E(S|f).选择 f*argmax(IG(f))的f作为第一个根节点然后递归下去吧。-----------关于信息增益进行特征选择的问题拿c类分类问题再理解下如果一个特征都不参考那么每个样本属于每个类的概率当然是1/c此时整个系统的信息熵是最大的logc一个极端的情况加入特征A后那么很明确的就将每个样本分到某个类别中去了概率分布(1,0,0,0....)是c维的。那么此时整个系统的信息熵是不是就是最小的0了此时加入A后的信息增益为1-01。当然很少会有这么管用的特征所以就比较信息增益大的特征用来特征选择。