阿里巴巴网站建设建议,建筑方案设计深度要求,网页设计模板html代码压缩包下载,网站的域名做邮箱吗1.明确意义
通过训练集建立模型的意义是对新的数据进行准确的预测#xff08;测试集的准度高才代表good fit#xff09;#xff1b;
2.评估流程 3.单单利用准确率accuracy进行模型评估的局限性
模型一#xff1a;一共1000个数据#xff08;分别为900个1和100个0#x…1.明确意义
通过训练集建立模型的意义是对新的数据进行准确的预测测试集的准度高才代表good fit
2.评估流程 3.单单利用准确率accuracy进行模型评估的局限性
模型一一共1000个数据分别为900个1和100个0850个1和50个0预测准确一共两类所以准确率为85050/100090%而对于每一类1的类为850/900的准确率而对于0的类50/100的准确率 模型二一共1000条数据预测为900个1正确准确率为900/100090%。而对于值为1的类900/9001所以以后的每条数据预测都会为1这样就会出现空准确率的情况 总结需要考虑每一类本身的分布比例比如1:091
4.解决方案混淆矩阵
前一个为T代表预测正确 后一个为Postives代表模型预测正确
1.如何利用TPTNFPFN进行模型的评估 计算指标
2.混淆矩阵的特点 5.模型优化
1.用什么模型 2.具体算法的核心结构以及参数如何选择 比如逻辑回归的函数g(x)如何选择线性还是多项式等等 Knn的邻居参数 3.如何提高模型表现
数据质量决定模型表现的上限 判断是否有异常数据我们可以用异常检测法检测有没有异常数据然后将其排除或者保留保留的主要目的是考虑了数据的适用性。 数据的意义是否为无关数据。 对于数据的标签结果统一管理 尝试更多的模型
4.举个例子利用高斯分布概率统计异常检测 1.数据分布统计——2.高斯分布概率统计分析异常——3.优化PCA分析维度是否可以减少——4.尝试不同的模型进行优化
5.确定一个模型后如何让模型的表现更好 模型的参数的选择 比如出现欠拟合的情况模型不能很好的预测样本我们可以降低KNN的参数n_neighbors值越降低模型复杂度越高。 模型复杂度越高说明训练集的准确率越高但不代表测试集的准确率会很高需要进行调整。