当前位置：首页 > news >正文

福建石狮有做网站的没网站服务器送一年

news 2025/12/20 17:29:59

福建石狮有做网站的没,网站服务器送一年,网络设置提高网速,上海专业网站建设公司有哪些#x1f606;#x1f606;#x1f606;感谢大家的支持~#x1f606;#x1f606;#x1f606; 逻辑回归的应用场景逻辑回归#xff08;Logistic Regression#xff09;是机器学习中的一种分类模型 #xff0c;逻辑回归是一种分类算法#xff0c;虽然名字中带有回…感谢大家的支持~ 逻辑回归的应用场景逻辑回归Logistic Regression是机器学习中的一种分类模型逻辑回归是一种分类算法虽然名字中带有回归。由于算法的简单和高效在实际中应用非常广泛☺️ 广告点击率预测用户是否会点击某个广告是典型的二分类问题。逻辑回归可以根据用户的特征如年龄、性别、浏览历史等来预测点击概率。是否为垃圾邮件电子邮件服务提供商使用逻辑回归来判断邮件是否为垃圾邮件根据邮件内容特征和发送者信息来进行分类。是否患病在医疗领域逻辑回归可以帮助预测患者是否有发病的风险例如基于患者的各种生理指标来预测糖尿病或冠心病的风险。信用卡账单是否会违约金融机构利用逻辑回归模型来评估信用卡用户是否存在违约风险这通常涉及对用户的信用历史、交易行为等进行分析。逻辑回归是一种用于分类问题的统计模型特别是适合于处理二分类问题。逻辑回归的输入逻辑回归模型的核心在于它使用了一个线性方程作为输入这个线性方程通常称为logit函数。具体来说逻辑回归模型首先通过一个线性方程对输入特征进行加权求和然后使用Sigmoid函数将这个线性方程的结果映射到(0,1)区间内从而得到一个概率值。这个过程可以用以下数学公式表示 [ P(y1|x) \frac{1}{1 e^{-(\beta_0 \beta_1x_1 \ldots \beta_nx_n)}} ] 激活函数 Sigmoid函数的数学表达式通常写为 ( sigma(x) \frac{1}{1 e^{-x}} )其中 ( x ) 是输入变量。回归的结果输入到sigmoid函数当中逻辑回归的损失称之为对数似然损失在逻辑回归中损失函数是用来度量预测值与真实值之间的差异的。具体来说逻辑回归通常使用的损失函数是交叉熵Cross Entropy这是一种衡量两个概率分布之间差异的函数。交叉熵损失函数可以写成以下形式 [ L(y, p) -frac{1}{N} \sum_{i1}^{N} [y_i \log(p_i) (1 - y_i) \log(1 - p_i)] ] 其中( y_i ) 是样本的真实标签0或1( p_i ) 是模型预测该样本为正例的概率N是样本数量。这个损失函数的目的是使得模型输出的概率尽可能接近真实标签。当模型预测的概率与真实标签一致时损失函数的值会很小反之如果预测的概率与真实标签相差较大则损失函数的值会比较大。优化同样使用梯度下降优化算法去减少损失函数的值。这样去更新逻辑回归前面对应算法的权重参数提升原本属于1类别的概率降低原本是0类别的概率。 from sklearn.linear_model import SGDRegressor# 创建SGDRegressor实例 estimator SGDRegressor(max_iter1000)# 使用训练数据拟合模型 estimator.fit(x_train, y_train) 案例 sklearn.linear_model.LogisticRegression(solverliblinear, penalty‘l2’, C 1.0) l2作为正则化项惩罚项以及C1.0作为正则化强度的倒数。 import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegressionnames [Sample code number, Clump Thickness, Uniformity of Cell Size, Uniformity of Cell Shape,Marginal Adhesion, Single Epithelial Cell Size, Bare Nuclei, Bland Chromatin, Normal Nucleoli, Mitoses, Class]data pd.read_csv(wisconsin.data) data.head()x data.iloc[:, 1:10] x.head() y data[Class] y.head()x_train, x_test, y_train, y_test train_test_split(x, y, random_state22)transfer StandardScaler() x_train transfer.fit_transform(x_train) x_test transfer.transform(x_test)estimator LogisticRegression() estimator.fit(x_train, y_train)y_predict estimator.predict(x_test) y_predict estimator.score(x_test, y_test) 分类评估指标 ROC曲线Receiver Operating Characteristic CurveROC曲线描绘了不同阈值下的真正例率和假正例率用于评估模型在不同阈值下的表现。在机器学习领域ROC曲线和AUC指标广泛应用于模型选择和性能评估。 ROC曲线全称为接收者操作特征曲线Receiver Operating Characteristic Curve是一种用于评估二分类模型性能的图形化工具。它以假正率False Positive Rate, FPR为横轴真正率True Positive Rate, TPR为纵轴绘制而成。ROC曲线上每个点反映了在不同判定阈值下模型对正类和负类样本分类的能力。通过观察ROC曲线我们可以直观地了解分类器在不同阈值下的性能表现。 AUCArea Under Curve则是ROC曲线下的面积用于量化地衡量模型的整体分类性能。AUC的取值范围在0.5到1之间其中0.5表示模型没有区分能力而1表示模型具有完美的分类能力。AUC越大说明模型在区分正负样本上的表现越好。在实际应用中一个AUC值接近1的模型通常被认为具有较高的预测准确性和可靠性。正样本中被预测为正样本的概率即TPR True Positive Rate负样本中被预测为正样本的概率即FPR False Positive Rate ROC 曲线图像中4 个特殊点的含义 (0, 0) 表示所有的正样本都预测为错误所有的负样本都预测正确(1, 0) 表示所有的正样本都预测错误所有的负样本都预测错误(1, 1) 表示所有的正样本都预测正确所有的负样本都预测错误(0, 1) 表示所有的正样本都预测正确所有的负样本都预测正确绘制 ROC 曲线在网页某个位置有一个广告图片或者文字该广告共被展示了 6 次有 2 次被浏览者点击了。绘制 ROC 曲线阈值0.9 原本为正例的 1、3 号的样本中 3 号样本被分类错误则 TPR ½ 0.5原本为负例的 2、4、5、6 号样本没有一个被分为正例则 FPR 0 阈值0.8 原本为正例的 1、3 号样本被分类正确则 TPR 2/2 1原本为负例的 2、4、5、6 号样本没有一个被分为正例则 FPR 0 阈值0.7 原本为正例的 1、3 号样本被分类正确则 TPR 2/2 1原本为负类的 2、4、5、6 号样本中 2 号样本被分类错误则 FPR ¼ 0.25 图像越靠近 (0,1) 点则模型对正负样本的辨别能力就越强且图像越靠近 (0, 1) 点则 ROC 曲线下面的面积就会越大。当 AUC 1 时该模型被认为是完美的分类器但是几乎不存在完美分类器案例 ychurn[flag] xchurn[[contract_month,internet_other,streamingtv]]from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_testtrain_test_split(x,y,test_size0.3,random_state100)from sklearn import linear_model lrlinear_model.LogisticRegression() lr.fit(x_train,y_train)y_pred_trainlr.predict(x_train) y_pred_testlr.predict(x_test) import sklearn.metrics as metrics metrics.accuracy_score(y_train,y_pred_train) from sklearn.metrics import roc_auc_score roc_auc_score(y_test, y_pred_test) # 网格搜索参数 from sklearn.model_selection import StratifiedKFold from sklearn.model_selection import GridSearchCV kfold StratifiedKFold(n_splits5, shuffleTrue) lr linear_model.LogisticRegression() param_grid {solver: [newton-cg, lbfgs, liblinear],C: [0.001, 0.01, 1, 10, 100],class_weight:[balanced]} search GridSearchCV(lr, param_grid, cvkfold) lr search.fit(x_train, y_train) LogisticRegression(class_weightbalanced)参数的作用是在拟合模型时自动调整类别权重以帮助处理不平衡的数据集。当使用class_weightbalanced时Scikit-learn的LogisticRegression会在计算损失函数时自动为每个类分配权重使得较少出现的类别少数类获得更高的权重以此来平衡各类别之间的样本数量差异。这样做有助于改善模型对少数类的识别能力特别是在数据集中某些类的样本数量远少于其他类时这种权重调整可以防止模型偏向于多数类。

查看全文

http://www.pierceye.com/news/402876/