当前位置：首页 > news >正文

wap网站什么意思建企业版网站多久

news 2025/12/26 12:44:49

wap网站什么意思,建企业版网站多久,企业网址免费注册,网站转移文章目录 2.10 主成分分析#xff08;PCA#xff09; 2.10.1 主成分分析#xff08;PCA#xff09;思想总结 2.10.2 图解PCA核心思想 2.10.3 PCA算法推理 2.10.4 PCA算法流程总结 2.10.5 PCA算法主要优缺点 2.10.6 降维的必要性及目的 2.10.7 KPCA与PCA的区别 2.11 模型评估…文章目录 2.10 主成分分析PCA 2.10.1 主成分分析PCA思想总结 2.10.2 图解PCA核心思想 2.10.3 PCA算法推理 2.10.4 PCA算法流程总结 2.10.5 PCA算法主要优缺点 2.10.6 降维的必要性及目的 2.10.7 KPCA与PCA的区别 2.11 模型评估 2.11.1 模型评估常用方法 2.11.2 误差、偏差和方差有什么区别和联系 2.11.3 经验误差与泛化误差 2.11.4 图解欠拟合、过拟合 2.11.5 如何解决过拟合与欠拟合 2.11.6 交叉验证的主要作用 2.11.7 理解k折交叉验证 2.11.8 混淆矩阵 2.11.9 错误率及精度 2.11.10 查准率与查全率 2.11.11 ROC与AUC 2.11.12 如何画ROC曲线 2.11.13 如何计算TPR、FPR 2.11.14 如何计算AUC 2.11.15 为什么使用Roc和Auc评价分类器 2.11.16 直观理解AUC 2.11.17 代价敏感错误率与代价曲线 2.11.18 模型有哪些比较检验方法 2.11.19 为什么使用标准差 2.11.20 类别不平衡产生原因 2.11.21 常见的类别不平衡问题解决办法 2.10 主成分分析PCA 2.10.1 主成分分析PCA思想总结 1. PCA就是将高维的数据通过线性变换投影到低维空间上去。 2. 投影思想找出最能够代表原始数据的投影方法。被PCA降掉的那些维度只能是那些噪声或是冗余的数据。 3. 去冗余去除可以被其他向量代表的线性相关向量这部分信息量是多余的。 4. 去噪声去除较小特征值对应的特征向量特征值的大小反映了变换后在特征值向量方向上变换的幅度幅度越大说明这个方向上的元素差异也越大要保留。 5. 对角化矩阵寻找极大线性无关组保留较大的特征值去除较小特征值组成一个投影矩阵对原始样本矩阵进行投影得到降维后的新样本矩阵。 6. 完成PCA的关键是——协方差矩阵。协方差矩阵能同时表现不同维度间的相关性以及各个维度上的方差。协方差矩阵度量的是维度与维度之间的关系而非样本与样本之间。 7. 之所以对角化因为对角化之后非对角上的元素都是0达到去噪声的目的。对角化后的协方差矩阵对角线上较小的新方差对应的就是那些该去掉的维度。所以我们只取那些含有较大能量特征值的维度其余的就舍掉即去冗余。 2.10.2 图解PCA核心思想 PCA可解决训练数据中存在数据特征过多或特征累赘的问题。核心思想是将m维特征映射到n维n m这n维形成主元是重构出来最能代表原始数据的正交特征。假设数据集是m个n维。如果需要降维到现在想找到某一维度方向代表这两个维度的数据。下图有两个向量方向但是哪个向量才是我们所想要的可以更好代表原始数据呢从图可看出比好为什么呢有以下两个主要评价指标 1. 样本点到这个直线的距离足够近。 2. 样本点在这个直线上的投影尽可能的分开。如果我们需要降维的目标维数是其他任意维则 1. 样本点到这个超平面的距离足够近。 2. 样本点在这个超平面上的投影尽可能的分开。 2.10.3 PCA算法推理下面以基于最小投影距离为评价指标推理假设数据集是m个n维且数据进行了中心化。经过投影变换得到新坐标为,其中是标准正交基即。经过降维后新坐标其中是降维后的目标维数。样本点在新坐标系下的投影为其中是在低维坐标系里的第维的坐标。如果用去恢复则得到的恢复数据为其中为标准正交基组成的矩阵。考虑到整个样本集样本点到这个超平面的距离足够近目标变为最小化对此式进行推理可得在推导过程中分别用到了矩阵转置公式以及矩阵的迹最后两步是将代数和转为矩阵形式。由于的每个一个向量是标准正交基是数据集的协方差矩阵是一个常量。最小化又可等价于利用拉格朗日函数可得到对进行求导可得也即。是个特征向量组成的矩阵为的特征值。即为我们想要的矩阵。对于原始数据只需要就可把原始数据集降维到最小投影距离的维数据集。基于最大投影方差的推导这里就不再赘述有兴趣的同仁可自行查阅资料。 2.10.4 PCA算法流程总结输入维样本集目标降维的维数。输出降维后的新样本集。主要步骤如下 1. 对所有的样本进行中心化。 2. 计算样本的协方差矩阵。 3. 对协方差矩阵进行特征值分解。 4. 取出最大的个特征值对应的特征向量。 5. 标准化特征向量得到特征向量的矩阵。 6. 转化样本集中每个样本。 7. 得到输出矩阵。注在降维时有时不明确目标维数而是指定降维到的主成分比重阈值。假设个特征值为则可从得到。 2.10.5 PCA算法主要优缺点优缺点简要说明优点 1. 仅仅需要以方差衡量信息差不受数据集以外的因素影响。 2. 各主成分之间正交可消除原始数据成分间的相互影响的因素 3. 计算方法简单主要运算是特征值分解易于实现缺点 1. 主成分各个特征维度的含义具有一定的模糊性不如原始样本特征的解释性强 2. 方差小的非主成分也可能含有对样本差异的重要信息因降维丢弃可能对后续数据处理有影响 2.10.6 降维的必要性及目的降维的必要性 1. 多重共线性和预测变量之间相互关联。多重共线性会导致解空间的不稳定从而可能导致结果的不连贯。 2. 高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间而在十维空间上只有2%。 3. 过多的变量对查找规律造成冗余麻烦。 4. 仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。降维的目的 1. 减少预测变量的个数。 2. 确保这些变量是相互独立的。 3. 提供一个框架来解释结果。相关特征特征是重要特征更能在数据中明确显示出来如果只有两维或者三维的话更便于可视化展示。 4. 数据在低维下更容易处理、更容易使用。 5. 去除数据噪声。 6. 降低算法运算开销。 2.10.7 KPCA与PCA的区别应用PCA算法前提是假设存在一个线性超平面进而投影。那如果数据不是线性的呢该怎么办这时候就需要KPCA数据集从维映射到线性可分的高维然后再从维降维到一个低纬度。 KPCA用到了核函数思想使用了核函数的主成分分析一般称为核主成分分析kernelized PCA简称KPCA。假设高维空间数据由维空间数据通过映射产生。维空间的特征分解为其映射为通过在高维空间进行协方差矩阵的特征值分解然后用PCA一样的方法进行降维。由于KPCA需要核函数的运算因此它的计算量要比PCA大很多。 2.11 模型评估 2.11.1 模型评估常用方法一般情况来说单一评分标准无法完全评估一个机器学习模型只用good和bad偏离真实场景去评估某个模型都是一种欠妥的评估方式。下面介绍常用的分类模型和回归模型评估方法。分类模型常用评估方法指标描述Accuracy准确率Precision精准度/查准率Recall召回率/查全率P-R曲线查准率为纵轴查全率为横轴作图F1F1值Confusion Matrix混肴矩阵ROCROC曲线AUCROC曲线下的面积回归模型常用评估方法指标描述Mean Square ErrorMSERMSE平均方差Absolute ErrorMAERAE绝对误差R-SquaredR平方值 2.11.2 误差、偏差和方差有什么区别和联系在机器学习中Bias偏差Error误差和Variance方差存在以下区别和联系对于Error 误差error一般地我们把机器学习的实际预测输出与样本的真实输出之间的差异称为“误差”。Error Bias Variance NoiseError反映的是整个模型的准确度。对于Noise 噪声描述了在当前任务上任何学习算法所能达到的期望泛化误差的下界即刻画了学习问题本身的难度。对于Bias Bias衡量模型拟合训练数据的能力训练数据不一定是整个training dataset而是只用于训练它的那一部分数据例如mini-batchBias反映的是模型在样本上的输出与真实值之间的误差即模型本身的精准度。Bias越小拟合能力越高可能产生overfitting反之拟合能力越低可能产生underfitting。偏差越大越偏离真实数据如下图第二行所示对于Variance 方差公式Variance描述的是预测值的变化范围离散程度也就是离其期望值的距离。方差越大数据的分布越分散模型的稳定程度越差。Variance反映的是模型每一次输出结果与模型输出期望之间的误差即模型的稳定性。Variance越小模型的泛化的能力越高反之模型的泛化能力越低。如果模型在训练集上拟合效果比较优秀但是在测试集上拟合效果比较差劣则方差较大说明模型的稳定程度较差出现这种现象可能是由于模型对训练集过拟合造成的。如下图右列所示。 2.11.3 经验误差与泛化误差经验误差empirical error也叫训练误差training error模型在训练集上的误差。泛化误差generalization error模型在新样本集测试集上的误差称为“泛化误差”。 2.11.4 图解欠拟合、过拟合根据不同的坐标方式欠拟合与过拟合图解不同。 1. 横轴为训练样本数量纵轴为误差如上图所示我们可以直观看出欠拟合和过拟合的区别模型欠拟合在训练集以及测试集上同时具有较高的误差此时模型的偏差较大模型过拟合在训练集上具有较低的误差在测试集上具有较高的误差此时模型的方差较大模型正常在训练集以及测试集上同时具有相对较低的偏差以及方差。 2. 横轴为模型复杂度纵轴为误差红线为测试集上的Error蓝线为训练集上的Error。模型欠拟合模型在A点处在训练集以及测试集上同时具有较高的误差此时模型的偏差较大。模型过拟合模型在C点处在训练集上具有较低的误差在测试集上具有较高的误差此时模型的方差较大。模型正常模型复杂程度控制在点B处为最优。 3. 横轴为正则项系数纵轴为误差红线为测试集上的Error蓝线为训练集上的Error。模型欠拟合模型在C点处在训练集以及测试集上同时具有较高的误差此时模型的偏差较大。模型过拟合模型在A点处在训练集上具有较低的误差在测试集上具有较高的误差此时模型的方差较大。它通常发生在模型过于复杂的情况下如参数过多等会使得模型的预测性能变弱并且增加数据的波动性。虽然模型在训练时的效果可以表现的很完美基本上记住了数据的全部特点但这种模型在未知数据的表现能力会大减折扣因为简单的模型泛化能力通常都是很弱的。模型正常模型复杂程度控制在点B处为最优。 2.11.5 如何解决过拟合与欠拟合如何解决欠拟合添加其他特征项。组合、泛化、相关性、上下文特征、平台特征等特征是特征添加的重要手段有时候特征项不够会导致模型欠拟合。添加多项式特征。例如将线性模型添加二次项或三次项使模型泛化能力更强。例如FMFatcorization Machine模型、FFMField-aware Factorization Machine模型其实就是线性模型增加了二阶多项式保证了模型一定的拟合程度。可以增加模型的复杂程度。减小正则化系数。正则化的目的是用来防止过拟合的但是现在模型出现了欠拟合则需要减少正则化参数。如何解决过拟合重新清洗数据数据不纯会导致过拟合此类情况需要重新清洗数据。增加训练样本数据。降低模型复杂程度。增大正则项系数。采用dropout方法。dropout方法通俗的讲就是在训练的时候让神经元以一定的概率不工作。early stopping。减少迭代次数。增大学习率。添加噪声数据。树结构中可以对树进行剪枝。减少特征项。欠拟合和过拟合这些方法需要根据实际问题实际模型进行选择。 2.11.6 交叉验证的主要作用为了得到更为稳健可靠的模型对模型的泛化误差进行评估得到模型泛化误差的近似值。当有多个模型可以选择时我们通常选择“泛化误差”最小的模型。交叉验证的方法有许多种但是最常用的是留一交叉验证、k折交叉验证。 2.11.7 理解k折交叉验证 1. 将含有N个样本的数据集分成k份每份含有N/K个样本。选择其中1份作为测试集测试集就有K种情况。 2. 在每种情况中用训练集训练模型用测试集测试模型计算模型的泛化误差。 3. 交叉验证重复K次每份验证一次平均K次的结果或者使用其他结合方式最终得到一个单一的估测得到模型的最终泛化误差。 4. 将K种情况下模型的泛化误差取均值得到模型最终的泛化误差。 5. 一般。k折交叉验证的优势在于同时重复运用随机产生的子样本进行训练和验证每次的结果验证一次10折交叉验证是最常用的。 6. 训练集种样本数量要足够多一般至少大于总样本数的50%。 7. 训练集和测试集必须从完整的数据集中均匀取样。均匀取样的目的是希望减少训练集、测试集与原始数据之间的偏差。当样本数量足够多时通过随机取样便可以实现均匀取样的效果。 2.11.8 混淆矩阵第一种混淆矩阵真实情况T or F预测为正例1P预测为负例0N本来label标记为1预测结果真为T、假为FTP预测为1实际为1FN预测为0实际为1本来label标记为0预测结果真为T、假为FFP预测为1实际为0TN预测为0实际为0 第二种混淆矩阵预测情况P or N实际label为1预测对了为T实际label为0预测对了为T预测为正例1PTP预测为1实际为1FP预测为1实际为0预测为负例0NFN预测为0实际为1TN预测为0实际也0 2.11.9 错误率及精度 1. 错误率Error Rate分类错误的样本数占样本总数的比例。 2. 精度accuracy分类正确的样本数占样本总数的比例。 2.11.10 查准率与查全率将算法预测的结果分成四种情况正确肯定True Positive,TP预测为真实际为真正确否定True Negative,TN预测为假实际为假错误肯定False Positive,FP预测为真实际为假错误否定False Negative,FN预测为假实际为真则查准率PrecisionTP/TPFP 理解预测出为阳性的样本中正确的有多少。区别准确率正确预测出的样本包括正确预测为阳性、阴性占总样本比例。例在所有我们预测有恶性肿瘤的病人中实际上有恶性肿瘤的病人的百分比越高越好。查全率RecallTP/TPFN 理解正确预测为阳性的数量占总样本中阳性数量的比例。例在所有实际上有恶性肿瘤的病人中成功预测有恶性肿瘤的病人的百分比越高越好。 2.11.11 ROC与AUC ROC全称是“受试者工作特征”Receiver Operating Characteristic。 ROC曲线的面积就是AUCArea Under Curve。 AUC用于衡量“二分类问题”机器学习算法性能泛化能力。 ROC曲线通过将连续变量设定出多个不同的临界值从而计算出一系列真正率和假正率再以假正率为横坐标、真正率为纵坐标绘制成曲线曲线下面积越大推断准确性越高。在ROC曲线上最靠近坐标图左上方的点为假正率和真正率均较高的临界值。对于分类器或者说分类算法评价指标主要有PrecisionRecallF-score。下图是一个ROC曲线的示例。 ROC曲线的横坐标为False Positive RateFPR纵坐标为True Positive RateTPR。其中。下面着重介绍ROC曲线图中的四个点和一条线。第一个点(0,1)即FPR0, TPR1这意味着FNFalse Negative0并且FPFalse Positive0。意味着这是一个完美的分类器它将所有的样本都正确分类。第二个点(1,0)即FPR1TPR0意味着这是一个最糟糕的分类器因为它成功避开了所有的正确答案。第三个点(0,0)即FPRTPR0即FPFalse PositiveTPTrue Positive0可以发现该分类器预测所有的样本都为负样本Negative。第四个点(1,1)即FPRTPR1分类器实际上预测所有的样本都为正样本。经过以上分析ROC曲线越接近左上角该分类器的性能越好。 ROC曲线所覆盖的面积称为AUCArea Under Curve可以更直观的判断学习器的性能AUC越大则性能越好。 2.11.12 如何画ROC曲线下图是一个示例图中共有20个测试样本“Class”一栏表示每个测试样本真正的标签p表示正样本n表示负样本“Score”表示每个测试样本属于正样本的概率。步骤假设已经得出一系列样本被划分为正类的概率按照大小排序。从高到低依次将“Score”值作为阈值threshold当测试样本属于正样本的概率大于或等于这个threshold时我们认为它为正样本否则为负样本。举例来说对于图中的第4个样本其“Score”值为0.6那么样本1234都被认为是正样本因为它们的“Score”值都大于等于0.6而其他样本则都认为是负样本。每次选取一个不同的threshold得到一组FPR和TPR即ROC曲线上的一点。以此共得到20组FPR和TPR的值。根据3、中的每个坐标点画图。 2.11.13 如何计算TPR、FPR 1、分析数据 y_true [0, 0, 1, 1]scores [0.1, 0.4, 0.35, 0.8]。 2、列表。样本预测属于P的概率score真实类别y[0]0.1Ny[1]0.4Ny[2]0.35Py[3]0.8P 3、将截断点依次取为score值计算TPR和FPR。当截断点为0.1时说明只要score0.1它的预测类别就是正例。因为4个样本的score都大于等于0.1所以所有样本的预测类别都为P。 scores [0.1, 0.4, 0.35, 0.8]y_true [0, 0, 1, 1]y_pred [1, 1, 1, 1] 正例与反例信息如下正例反例正例TP2FN0反例FP2TN0 由此可得 TPR TP/(TPFN) 1 FPR FP/(TNFP) 1 当截断点为0.35时 scores [0.1, 0.4, 0.35, 0.8]y_true [0, 0, 1, 1]y_pred [0, 1, 1, 1]; 正例与反例信息如下由此可得 TPR TP/(TPFN) 1 FPR FP/(TNFP) 0.5 当截断点为0.4时 scores [0.1, 0.4, 0.35, 0.8]y_true [0, 0, 1, 1]y_pred [0, 1, 0, 1] 正例与反例信息如下由此可得 TPR TP/(TPFN) 0.5 FPR FP/(TNFP) 0.5 当截断点为0.8时 scores [0.1, 0.4, 0.35, 0.8]y_true [0, 0, 1, 1]y_pred [0, 0, 0, 1] 正例与反例信息如下由此可得 TPR TP/(TPFN) 0.5 FPR FP/(TNFP) 0 4、根据TPR、FPR值以FPR为横轴TPR为纵轴画图。 2.11.14 如何计算AUC 将坐标点按照横坐标FPR排序。计算第个坐标点和第个坐标点的间距。获取第或者个坐标点的纵坐标y。计算面积微元。对面积微元进行累加得到AUC。 2.11.15 为什么使用Roc和Auc评价分类器模型有很多评估方法为什么还要使用ROC和AUC呢因为ROC曲线有个很好的特性当测试集中的正负样本的分布变换的时候ROC曲线能够保持不变。在实际的数据集中经常会出现样本类不平衡即正负样本比例差距较大而且测试数据中的正负样本也可能随着时间变化。 2.11.16 直观理解AUC 下图展现了三种AUC的值 AUC是衡量二分类模型优劣的一种评价指标表示正例排在负例前面的概率。其他评价指标有精确度、准确率、召回率而AUC比这三者更为常用。一般在分类模型中预测结果都是以概率的形式表现如果要计算准确率通常都会手动设置一个阈值来将对应的概率转化成类别这个阈值也就很大程度上影响了模型准确率的计算。举例现在假设有一个训练好的二分类器对10个正负样本正例5个负例5个预测得分按高到低排序得到的最好预测结果为[1, 1, 1, 1, 1, 0, 0, 0, 0, 0]即5个正例均排在5个负例前面正例排在负例前面的概率为100%。然后绘制其ROC曲线由于是10个样本除去原点我们需要描10个点如下描点方式按照样本预测结果的得分高低从左至右开始遍历。从原点开始每遇到1便向y轴正方向移动y轴最小步长1个单位这里是1/50.2每遇到0则向x轴正方向移动x轴最小步长1个单位这里也是0.2。不难看出上图的AUC等于1印证了正例排在负例前面的概率的确为100%。假设预测结果序列为[1, 1, 1, 1, 0, 1, 0, 0, 0, 0]。计算上图的AUC为0.96与计算正例与排在负例前面的概率0.8 × 1 0.2 × 0.8 0.96相等而左上角阴影部分的面积则是负例排在正例前面的概率0.2 × 0.2 0.04。假设预测结果序列为[1, 1, 1, 0, 1, 0, 1, 0, 0, 0]。计算上图的AUC为0.88与计算正例与排在负例前面的概率0.6 × 1 0.2 × 0.8 0.2 × 0.6 0.88相等左上角阴影部分的面积是负例排在正例前面的概率0.2 × 0.2 × 3 0.12。 2.11.17 代价敏感错误率与代价曲线不同的错误会产生不同代价。以二分法为例设置代价矩阵如下当判断正确的时候值为0不正确的时候分别为和。表示实际为反例但预测成正例的代价。表示实际为正例但是预测为反例的代价。代价敏感错误率样本中由模型得到的错误值与代价乘积之和 / 总样本。其数学表达式为分别代表样例集的正例子集和反例子集x是预测值y是真实值。代价曲线在均等代价时ROC曲线不能直接反应出模型的期望总体代价而代价曲线可以。代价曲线横轴为[0,1]的正例函数代价。其中p是样本为正例的概率。代价曲线纵轴维[0,1]的归一化代价其中FPR为假阳率FNR1-TPR为假阴率。注ROC每个点对应代价平面上一条线。例如ROC上(TPR,FPR),计算出FNR1-TPR在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段面积则为该条件下期望的总体代价。所有线段下界面积所有条件下学习器的期望总体代价。 2.11.18 模型有哪些比较检验方法正确性分析模型稳定性分析稳健性分析收敛性分析变化趋势分析极值分析等。有效性分析误差分析参数敏感性分析模型对比检验等。有用性分析关键数据求解极值点拐点变化趋势分析用数据验证动态模拟等。高效性分析时空复杂度分析与现有进行比较等。 2.11.19 为什么使用标准差方差公式为标准差公式为样本标准差公式为与方差相比使用标准差来表示数据点的离散程度有3个好处 1、表示离散程度的数字与样本数据点的数量级一致更适合对数据样本形成感性认知。 2、表示离散程度的数字单位与样本数据的单位一致更方便做后续的分析运算。 3、在样本数据大致符合正态分布的情况下标准差具有方便估算的特性68%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内而99%的数据点将会落在平均值前后3个标准差的范围内。 2.11.20 类别不平衡产生原因类别不平衡class-imbalance是指分类任务中不同类别的训练样例数目差别很大的情况。产生原因分类学习算法通常都会假设不同类别的训练样例数目基本相同。如果不同类别的训练样例数目差别很大则会影响学习结果测试结果变差。例如二分类问题中有998个反例正例有2个那学习方法只需返回一个永远将新样本预测为反例的分类器就能达到99.8%的精度然而这样的分类器没有价值。 2.11.21 常见的类别不平衡问题解决办法防止类别不平衡对学习造成的影响在构建分类模型之前需要对分类不平衡性问题进行处理。主要解决方法有 1、扩大数据集增加包含小类样本数据的数据更多的数据能得到更多的分布信息。 2、对大类数据欠采样减少大类数据样本个数使与小样本个数接近。缺点欠采样操作时若随机丢弃大类样本可能会丢失重要信息。代表算法EasyEnsemble。其思想是利用集成学习机制将大类划分为若干个集合供不同的学习器使用。相当于对每个学习器都进行欠采样但对于全局则不会丢失重要信息。 3、对小类数据过采样过采样对小类的数据样本进行采样来增加小类的数据样本个数。代表算法SMOTE和ADASYN。 SMOTE通过对训练集中的小类数据进行插值来产生额外的小类样本数据。新的少数类样本产生的策略对每个少数类样本a在a的最近邻中随机选一个样本b然后在a、b之间的连线上随机选一点作为新合成的少数类样本。 ADASYN根据学习难度的不同对不同的少数类别的样本使用加权分布对于难以学习的少数类的样本产生更多的综合数据。通过减少类不平衡引入的偏差和将分类决策边界自适应地转移到困难的样本两种手段改善了数据分布。 4、使用新评价指标如果当前评价指标不适用则应寻找其他具有说服力的评价指标。比如准确度这个评价指标在类别不均衡的分类任务中并不适用甚至进行误导。因此在类别不均衡分类任务中需要使用更有说服力的评价指标来对分类器进行评价。 5、选择新算法不同的算法适用于不同的任务与数据应该使用不同的算法进行比较。 6、数据代价加权例如当分类任务是识别小类那么可以对分类器的小类样本数据增加权值降低大类样本的权值从而使得分类器将重点集中在小类样本身上。 7、转化问题思考角度例如在分类问题时把小类的样本作为异常点将问题转化为异常点检测或变化趋势检测问题。异常点检测即是对那些罕见事件进行识别。变化趋势检测区别于异常点检测在于其通过检测不寻常的变化趋势来识别。 8、将问题细化分析对问题进行分析与挖掘将问题划分成多个更小的问题看这些小问题是否更容易解决。

查看全文

http://www.pierceye.com/news/623636/