先建网站还是先做网页,做中医诊所网站,seo优化网络,如何做网站的信息分类参考文献#xff1a;《Python数据分析与挖掘实战》 分类与预测
一、实现过程
分类#xff1a;构造分类模型#xff0c;输入样本的属性值#xff0c;输出对应的类别#xff0c;将每个样本映射到预先定义好的类别。属于有监督的学习。预测#xff1a;建立两种或两种以上变… 参考文献《Python数据分析与挖掘实战》 分类与预测
一、实现过程
分类构造分类模型输入样本的属性值输出对应的类别将每个样本映射到预先定义好的类别。属于有监督的学习。预测建立两种或两种以上变量间相互依赖的函数模型然后进行预测或控制。分类实现过程 学习通过归纳分析训练样本集来建立分类模型得到分类规则。 分类用已知的测试样本集评估分类规则的准确率若结果可接受则用样本集进行预测。预测实现过程 通过训练集建立预测数值型属性的函数模型。 在模型通过检验后进行预测或控制。
二、常用的分类和预测算法
算法描述回归分析预测数值型属性线性回归、非线性回归、逻辑回归、岭回归、主成分回归、偏最小二乘回归决策树自顶向下的递归方式内部节点进行属性值比较根据不同属性值从节点向下分支最终得到的叶节点为学习划分的类人工神经网络反映神经网络的输入和输出变量之间关系的模型贝叶斯网络不确定知识表达和推理领域最有效的理论模型支持向量机通过某种非线性映射把低维的非线性可分转化为高维的线性可分在高维空间进行线性分析的算法
回归分析
一、常用回归模型
模型适用条件线性回归因变量和自变量是线性关系非线性回归因变量和自变量不都是线性关系逻辑回归因变量有0/1两种取值岭回归参与建模的自变量之间有多重共线性主成分回归参与建模的自变量之间有多重共线性
二、逻辑回归模型 逻辑函数 假设有n个独立的自变量x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn 假设y1的概率p(y1)pP(y1∣X)p(y1)pP(y1|X)p(y1)pP(y1∣X)y0的概率是p(y0)1-p 则概率之比为p1−p\frac{p}{1-p}1−pp取自然对数得到逻辑变换Logit(p)ln(p1−p)Logit(p) ln(\frac{p}{1-p})Logit(p)ln(1−pp)。 令Logit§z则p11e−zp\frac{1}{1e^{-z}}p1e−z1即为逻辑函数 逻辑回归模型 定义建立ln(p1−p)ln(\frac{p}{1-p})ln(1−pp)与自变量的线性回归模型即 ln(p1−p)β0β1xi......βnxnϵln(\frac{p}{1-p})\beta_0\beta_1x_i......\beta_nx_n\epsilonln(1−pp)β0β1xi......βnxnϵ 记g(x)β0β1xi......βnxng(x)\beta_0\beta_1x_i......\beta_nx_ng(x)β0β1xi......βnxn则有 pP(y1∣X)11e−g(x)pP(y1|X)\frac{1}{1e^{-g(x)}}pP(y1∣X)1e−g(x)1 1−pP(y0∣X)1−11e−g(x)11eg(x)1-pP(y0|X)1-\frac{1}{1e^{-g(x)}}\frac{1}{1e^{g(x)}}1−pP(y0∣X)1−1e−g(x)11eg(x)1
3.逻辑回归建模步骤 (1) 设置自变量和因变量收集数据筛选特征。 (2) 用p1−p\frac{p}{1-p}1−pp和自变量列出线性回归方程估计出模型中的回归系数。 (3) 进行模型检验正确率、混淆矩阵、ROC、KS (4) 模型应用输入自变量的取值得到预测变量的值。
filename ../data/bankloan.xls
data pd.read_excel(filename)
x data.iloc[:, :8].as_matrix()
y data.iloc[:, 8].as_matrix()
rlr RLR()
rlr.fit(x, y)
rlr_support rlr.get_support()
support_col data.drop(违约, axis1).columns[rlr_support]
print(rlr_support_columns: {columns}.format(columns,.join(support_col)))
x data[support_col].as_matrix()
lr LR()
lr.fit(x, y)
print(lr: {score}.format(scorelr.score(x, y)))【这里存在一个问题没有解决from sklearn.linear_model import RandomizedLogisticRegression as RLR找不到RandomizedLogisticRegression后按照网上教程import stability_selection.randomized_lasso import RandomizedLogisticRegression as RLR这时RLR可以成功导入但是这个类没有get_support()方法暂时还不知道怎么解决这个问题。】