青岛做网站的公司哪家好一点,虚拟币 wordpress,wordpress站群功能,荣耀华为手机商城官方网站概览
除了原生接口之外#xff0c;XGBoost还提供了一个符合sklearn估计器指南的sklearn估计器接口。它支持回归、分类和学习排名。sklearn估计器接口的生存训练仍在进行中。 你可以在使用sklearn接口的示例集合中找到一些快速入门示例。使用sklearn接口的主要优势在于#x…概览
除了原生接口之外XGBoost还提供了一个符合sklearn估计器指南的sklearn估计器接口。它支持回归、分类和学习排名。sklearn估计器接口的生存训练仍在进行中。 你可以在使用sklearn接口的示例集合中找到一些快速入门示例。使用sklearn接口的主要优势在于它可以与sklearn提供的大多数实用程序一起工作例如sklearn.model_selection.cross_validate()。此外由于其流行度许多其他库也认识sklearn估计器接口。 使用sklearn估计器接口我们只需要几行Python代码就可以训练一个分类模型。下面是训练一个分类模型的示例
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_splitimport xgboost as xgbX, y load_breast_cancer(return_X_yTrue)
X_train, X_test, y_train, y_test train_test_split(X, y, stratifyy, random_state94)# Use hist for constructing the trees, with early stopping enabled.
clf xgb.XGBClassifier(tree_methodhist, early_stopping_rounds2)# Fit the model, test sets are used for early stopping.
clf.fit(X_train, y_train, eval_set[(X_test, y_test)])# Save model into JSON format.
clf.save_model(clf.json)tree_method参数指定了构建树的方法而early_stopping_rounds参数则启用了提前停止。提前停止可以帮助防止过拟合并在训练过程中节省时间。
提前停止Early Stopping
可以通过参数early_stopping_rounds启用提前停止。另外还可以使用回调函数xgboost.callback.EarlyStopping来指定有关提前停止行为的更多细节包括XGBoost是否应返回最佳模型而不是完整的树栈
early_stop xgb.callback.EarlyStopping(rounds2, metric_namelogloss, data_nameValidation_0, save_bestTrue
)
clf xgb.XGBClassifier(tree_methodhist, callbacks[early_stop])
clf.fit(X_train, y_train, eval_set[(X_test, y_test)])目前XGBoost在估计器中没有实现数据拆分逻辑而是依赖于xgboost.XGBModel.fit()方法的eval_set参数。如果要使用提前停止来防止过拟合需要使用sklearn库中的sklearn.model_selection.train_test_split()函数手动将数据拆分为训练集和测试集。一些其他的机器学习算法比如sklearn中的算法将提前停止作为估计器的一部分并且可以与交叉验证一起使用。然而在交叉验证过程中使用提前停止可能并不是一个完美的方法因为它会改变每个验证折叠的模型树的数量导致不同的模型。一个更好的方法是在交叉验证后使用最佳的超参数以及提前停止重新训练模型。如果想尝试使用提前停止进行交叉验证的想法这是一个开始的代码片段
from sklearn.base import clone
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import StratifiedKFold, cross_validateimport xgboost as xgbX, y load_breast_cancer(return_X_yTrue)def fit_and_score(estimator, X_train, X_test, y_train, y_test):Fit the estimator on the train set and score it on both setsestimator.fit(X_train, y_train, eval_set[(X_test, y_test)])train_score estimator.score(X_train, y_train)test_score estimator.score(X_test, y_test)return estimator, train_score, test_scorecv StratifiedKFold(n_splits5, shuffleTrue, random_state94)clf xgb.XGBClassifier(tree_methodhist, early_stopping_rounds3)results {}for train, test in cv.split(X, y):X_train X[train]X_test X[test]y_train y[train]y_test y[test]est, train_score, test_score fit_and_score(clone(clf), X_train, X_test, y_train, y_test)results[est] (train_score, test_score)获取原生 booster 对象
**Sklearn 估计器接口主要用于训练并没有实现 XGBoost 中所有可用的功能。**例如为了获得缓存的预测结果需要使用 xgboost.Booster.predict() 方法配合 xgboost.DMatrix。可以通过 xgboost.XGBModel.get_booster() 方法从 sklearn 接口中获取 booster 对象。
booster clf.get_booster()
print(booster.num_boosted_rounds())预测
当启用提前停止时包括xgboost.XGBModel.predict()、xgboost.XGBModel.score()和xgboost.XGBModel.apply()在内的预测函数将自动使用最佳模型。这意味着xgboost.XGBModel.best_iteration用于指定在预测中使用的树的范围。 为了获得增量预测的缓存结果可以使用xgboost.Booster.predict()方法。
并行线程数
在处理XGBoost和其他sklearn工具时可以通过使用n_jobs参数来指定想要使用的线程数。默认情况下XGBoost会使用计算机上所有可用的线程这可能会在与sklearn的其他功能如sklearn.model_selection.cross_validate()结合使用时产生一些有趣的结果。**如果XGBoost和sklearn都设置为使用所有线程计算机可能会因为所谓的“线程颠簸”而显著变慢。**为了避免这种情况只需将XGBoost的n_jobs参数设置为None这使用了所有线程并将sklearn的n_jobs参数设置为1。这样这两个程序就能够顺畅地一起工作而不会给计算机造成任何不必要的负担。
参考
https://scikit-learn.org/stable/developers/develop.html#rolling-your-own-estimatorhttps://xgboost.readthedocs.io/en/latest/python/examples/sklearn_examples.html#sphx-glr-python-examples-sklearn-examples-pyhttps://xgboost.readthedocs.io/en/latest/python/sklearn_estimator.html