当前位置: 首页 > news >正文

临海高端网站设计新感觉建站wordpress 报表图形

临海高端网站设计新感觉建站,wordpress 报表图形,莆田网站建设收费标准,网站关键词放哪目录 集成学习概念 集成学习器性能评估 随机森林 AdaBoost #x1f606;#x1f606;#x1f606;感谢大家的阅读#x1f606;#x1f606;#x1f606; 集成学习概念 #x1f48e;集成学习是机器学习中的一种思想#xff0c;它通过多个模型的组合形成一个精度…目录 集成学习概念 集成学习器性能评估  随机森林  AdaBoost  感谢大家的阅读 集成学习概念 集成学习是机器学习中的一种思想它通过多个模型的组合形成一个精度更高的模型参与组合的模型成为弱学习器基学习器。训练时使用训练集依次训练出这些弱学习器对未知的样本进行预测时使用这些弱学习器联合进行预测。 集成学习通过构建多个模型来解决单一预测问题生成多基学习器各自独立地学习和预测通过平权或者加权的方式整合多个基学习器的预测输出  传统机器学习算法 (例如决策树逻辑回归等) 的目标都是寻找一个最优分类器尽可能的将训练数据分开。集成学习 (Ensemble Learning) 算法的基本思想就是将多个分类器组合从而实现一个预测效果更好的集成分类器。 集成算法可以分为BaggingBoosting和Stacking等类型。  基学习器是可使用不同的学习模型比如支持向量机、神经网络、决策树整合到一起作为一个集成学习系统也可使用相同的学习模型一般情况下更使用相同的学习模型 。 集成学习器性能评估  如果把好坏不等的东西掺到一起通常结果会比最坏的好一些比最好的坏一些。集成学习把多个学习器结合起来要获得好的集成个体学习器应有一定的准确性 学习器不能太坏并且学习器之间具有差异 。  常用的度量标准包括准确率、精确率、召回率、F1分数、ROC曲线下的面积AUC等。并且可以使用交叉验证等技术来选择最优的模型根据性能评估的结果可以调整集成学习器的参数如基学习器的数量、投票策略等以优化其性能。这是一个迭代的过程可能需要多次重复以上步骤直到达到满意的性能。 根据集成分类策略 Bagging随机森林Boosting Adaboost、XGBoost Baggging 框架通过有放回的抽样产生不同的训练集从而训练具有差异性的弱学习器然后通过平权投票、多数表决的方式决定预测结果。  Bagging算法首先采用M轮自助采样法获得M个包含N个训练样本的采样集。然后基于这些采样集训练出一个基学习器。最后将这M个基学习器进行组合。 分类任务采用简单投票法即每个基学习器一票 回归问题使用简单平均法即每个基学习器的预测值取平均值 随机森林  随机森林是基于 Bagging 思想实现的一种集成学习算法它采用决策树模型作为每一个基学习器。 有放回的产生训练样本随机挑选 n 个特征n 小于总特征数量预测平权投票多数表决输出预测结果 单个决策树在产生样本集和确定特征后使用CART算法计算不剪枝。得到所需数目的决策树后随机森林方法对这些树的输出进行投票以得票最多的类作为随机森林的决策。  随机森林的随机性体现在每棵树的训练样本是随机的树中每个节点的分裂属性也是随机选择的。即使每棵决策树没有进行剪枝随机森林也不会产生过拟合的现象。  sklearn.ensemble.RandomForestClassifier()  n_estimators决策树数量Criterionentropy、gini max_depth指定树的最大深度max_featuresauto”, 决策树构建时使用的最大特征数量bootstrap是否采用有放回抽样如果为 False 将会使用全部训练样本min_impurity_split: 节点划分最小不纯度如果某节点的不纯度小于这个阈值则该节点不再生成子节点 Sklearn实战  import pandas as pdtitanicpd.read_csv(泰坦尼克号.csv) Xtitanic[[Pclass,Age,Sex]] ytitanic[Survived] #数据的填补 X[Age].fillna(X[Age].mean(),inplaceTrue) X pd.get_dummies(X) from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test train_test_split(X,y,test_size0.25,random_state26)#使用单一的决策树 from sklearn.tree import DecisionTreeClassifier dtcDecisionTreeClassifier() dtc.fit(X_train,y_train) dtc_y_preddtc.predict(X_test) dtc.score(X_test,y_test)#随机森林进行模型的训练和预测分析 from sklearn.ensemble import RandomForestClassifier rfcRandomForestClassifier(max_depth6,random_state9) rfc.fit(X_train,y_train) rfc_y_predrfc.predict(X_test) rfc.score(X_test,y_test)#性能 from sklearn.metrics import classification_report print(dtc_report:,classification_report(dtc_y_pred,y_test)) print(rfc_report:,classification_report(rfc_y_pred,y_test)) 超参数选择 rf RandomForestClassifier() param{n_estimators:[80,100,200], max_depth: [2,4,6,8,10,12],random_state:[9]}# GridSearchCV网格搜索 from sklearn.model_selection import GridSearchCV gc GridSearchCV(rf, param_gridparam, cv2) gc.fit(X_train, y_train) print(随机森林预测的准确率为, gc.score(X_test, y_test)) Boosting Boosting的核心思想在于逐步改进预测结果每个新的基模型都在前一个模型的基础上进一步提升性能。这种方法是递进的意味着后续的学习器依赖于前面学习器的表现。Boosting方法通常会对所有基模型的预测结果进行线性组合以产生最终的预测结果。这种组合方式有助于减少整体的偏差从而提高模型的预测性能。  Bagging 和 Boosting 样本选择Bagging 使用均匀取样每个样本的权重相等而 Boosting 根据错误率不断调整样本的权值错误率越大的样本权重越大。预测函数在 Bagging 中所有预测函数的权重相等而 Boosting 中每个弱分类器都有相应的权重对于分类误差小的分类器会有更大的权重。计算效率Bagging 算法更加简单高效因为每次迭代可以独立进行而 Boosting 需要根据前一轮的结果来调整样本的权重和训练模型。 先从初始训练集训练出一个基学习器在根据基学习器的表现对训练样本分布进行调整使得先前基学习器做错的训练样本在后续得到最大的关注。然后基于调整后的样本分布来训练下一个基学习器如此重复进行直至基学习器数目达到实现指定的值T为止。再将这T个基学习器进行加权结合得到集成学习器。 然后进行第二轮训练时预测错误的样品放大正确的缩小。 直到循环几轮之后 AdaBoost  AdaBoost是Boosting算法的一种实现是一种用于分类问题的算法它用弱分类器的线性组合来构造强分类器。在训练开始时每个样本都被赋予相同的权值例如 ( w_1 \frac{1}{N} )其中 ( N ) 是训练样本的数量。 接着算法会训练一系列的弱分类器 ( h_i )。对于每一轮训练如果某个样本被正确分类则它的权值会降低反之如果被错误分类则权值会增加。这样做的目的是让后续的弱分类器更加关注那些难以正确分类的样本。 在每一轮迭代中根据上一轮的分类结果调整样本权值并基于新的权值分布训练下一个弱分类器。最终所有的弱分类器会被组合起来形成一个强分类器。每个弱分类器的贡献由其在训练过程中的表现决定分类效果好的弱分类器会有更大的权重。 AdaBoost自提出以来因其出色的性能在多个领域得到了广泛应用如文本分类、图像识别和生物信息学等。它的优势在于能够自适应地调整样本权重并通过弱分类器的线性组合达到强化模型性能的目的。  import pandas as pd df_wine pd.read_csv(wine.data)df_wine.columns [Class label, Alcohol, Malic acid, Ash, Alcalinity of ash, Magnesium, Total phenols, Flavanoids, Nonflavanoid phenols, Proanthocyanins, Color intensity, Hue, OD280/OD315 of diluted wines, Proline] df_wine df_wine[df_wine[Class label] ! 1] # 获取特征值和目标值 X df_wine[[Alcohol, Hue]].values y df_wine[Class label].valuesfrom sklearn.preprocessing import LabelEncoder from sklearn.model_selection import train_test_split # (2,3)(0,1) le LabelEncoder() y le.fit_transform(y) # 划分训练集和测试集 X_train,X_test,y_train,y_test train_test_split(X,y,test_size0.4,random_state1)from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import AdaBoostClassifiertree DecisionTreeClassifier(criterionentropy,max_depth1,random_state0) adaAdaBoostClassifier(base_estimatortree,n_estimators500,learning_rate0.1,random_state0)from sklearn.metrics import accuracy_score # 决策树和AdaBoost分类器评估 # 决策树性能评估 tree tree.fit(X_train,y_train) y_train_pred tree.predict(X_train) y_test_pred tree.predict(X_test) tree_train accuracy_score(y_train,y_train_pred) tree_test accuracy_score(y_test,y_test_pred) print(Decision tree train/test accuracies %.3f/%.3f % (tree_train,tree_test)) # Decision tree train/test accuracies 0.845/0.854# AdaBoost性能评估 ada ada.fit(X_train,y_train) y_train_pred ada.predict(X_train) y_test_pred ada.predict(X_test) ada_train accuracy_score(y_train,y_train_pred) ada_test accuracy_score(y_test,y_test_pred) print(Adaboost train/test accuracies %.3f/%.3f % (ada_train,ada_test)) # Adaboost train/test accuracies 1/0.875
http://www.pierceye.com/news/126594/

相关文章:

  • 南昌市有帮做网站的吗纵横天下网站开发
  • pc网站直接转换成移动端的网站黑果云免费虚拟主机
  • 网站建设用什么科目wordpress当前分类链接地址
  • 做一万个网站网站做下载功能
  • 佛山建站模板制作wordpress加上live2d
  • 樟木头网站仿做深圳网站开发公司
  • 孙俪做的网站广告微信如何修改wordpress
  • 有什么手机做网站的免费ppt模板下载花
  • 网站建设团队技术介绍县级网站
  • 深圳营销型网站建设价格网站建设文化如何
  • 提交网站的入口地址网站建设灬金手指下拉十五
  • 连云港建设局网站学校网站建设管理相关规定
  • 什么网站做玩具的外贸网站监控系统
  • 从事网站美工建设厦门网站制作企业
  • 网站后台传图片南昌做网站要多少钱
  • 网站包括什么国内最大的域名交易平台
  • 做营销型网站 公司哈尔滨展览设计公司
  • 网站设计费用多少钱产品网页设计教程
  • 深圳公司网站建设设计网站推广的意义和方法
  • 网站需要哪些费用免费营销型网站模版
  • 如何做购物网站的教程wordpress酷炫插件
  • 建设信用卡网站登录网站建设和微信小程序
  • 邓州企业网站艺术设计方案
  • 广州市住房住建局网站永久免费的云电脑
  • 建设网站后如何上线不用服务器做网站
  • 建站服务论坛国外做外贸哪个网站好些
  • 营销型网站试运营调忧仿别人网站
  • 低价网站制作企业云南网站开发公司
  • 成都市建设厅网站查询十九冶成都建设有限公司网站
  • 建电商网站要多少钱建设绿色食品网站