微信小程序和网站开发有什么区别,深圳网站建设..,知名的设计网站,成都网站设计网站制作公司文章目录1、知道几个关于差的概念2、理解相似度度量的各种方法和相互关系2.1、欧氏距离2.2、jaccard相似系数2.3、余弦相似度2.4、Pearson相似系数2.5、相对熵3、掌握掌握K-Means算法3.1、知道聚类的思想3.2、K-Means算法原理3.3、知道K-Mediods聚类3.4、如何选取K…
文章目录1、知道几个关于差的概念2、理解相似度度量的各种方法和相互关系2.1、欧氏距离2.2、jaccard相似系数2.3、余弦相似度2.4、Pearson相似系数2.5、相对熵3、掌握掌握K-Means算法3.1、知道聚类的思想3.2、K-Means算法原理3.3、知道K-Mediods聚类3.4、如何选取K-means的初始值3.5、K-means的目标函数4、知道聚类的衡量效果的指标5、了解层次聚类的思路和方法6、理解密度聚类7、掌握谱聚类的算法7.1、了解谱方阵的全体特征值称为方阵的谱以及谱半径最大的特征值称为谱半径7.2、几个概念di代表行列式的第i行的累加值。 邻接矩阵W又称为相似矩阵又为对称矩阵Wij与Wji的值相等即i、j的距离相等主对角线的值取0  7.2、了解谱分析的整体的过程7.3、其他谱聚类算法8、知道拉布拉斯矩阵9、知道标签传递算法1、知道几个关于差的概念
均值、方差、标准差、协方差 协方差就是这样一种用来度量两个随机变量关系的统计量我们可以仿照方差的定义
2、理解相似度度量的各种方法和相互关系 2.1、欧氏距离
欧氏距离p2又称为第二范式。曼哈顿距离p1又称为第一范式,p为多少也就为第几范式。
2.2、jaccard相似系数
用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大样本相似度越高。
2.3、余弦相似度 2.4、Pearson相似系数
两个变量之间的协方差和标准差的商。
当两个变量的线性关系增强时相关系数趋于1或-1当一个变量增大另一个变量也增大时表明它们之间是正相关的相关系数大于0如果一个变量增大另一个变量却减小表明它们之间是负相关的相关系数小于0如果相关系数等于0表明它们之间不存在线性相关关系。
2.5、相对熵
又称为KL散度Kullback–Leibler divergence简称KLD[1]信息散度information divergence信息增益information gain。
余弦相似度与Pearson相似系数之间的关系
3、掌握掌握K-Means算法
3.1、知道聚类的思想
先做一个初始的划分之后通过迭代来改变样本和簇之间的隶属关系。
3.2、K-Means算法原理
1、选取初始的K个类别中心数据可以自定义也可以随机选取K个样本 2、对于每个样本将其标记为距离类别中心最近的类别对样本进行聚类处理。 3、将每个类别中心更新为隶属于该类别的所有样本的均值。 4、重复2、3直到类别中心的变化小于某阈值迭代次数/簇中心变化率/最小平方误差MSE
3.3、知道K-Mediods聚类
类别中心的更新依据从数据的均值改为中位数。
3.4、如何选取K-means的初始值
首先知道K-means是初值敏感的K的输入很关键也就是每个类别中初始值的选择是很关键的。那么如何有效的选取K-Means的初始值 得到第一个初始值后求其他点到该初始值的距离时将距离初始值较远的点作为簇点的概率大些这样就可以得到较好的初始簇点。
3.5、K-means的目标函数
目标函数求每个簇的样本点到每个簇中心的距离的加和求导后就相当于将周围点的平均值付给μ作为新的簇中心。
4、知道聚类的衡量效果的指标
均一性和完整性就类似于之前半监督中的准确率和召回率 V-measure均一性和完整性的加权平均 了解这个轮廓系数衡量分类好坏的指标 先了解上面的簇内不相似系数ai越小越好簇内的样本点i到簇内其他样本点平均距离。 簇间不相似系数bi越大越好样本i到某簇的所有样本的平均距离。 轮廓系数含义见下图
5、了解层次聚类的思路和方法
知道这两个算法AGNES和DIANA
6、理解密度聚类 了解DBSCAN算法 算法原理 1、如果点p的邻域包含多于m个对象则创建一个p作为核心对象的新簇。 2、寻找并合并核心对象周围直接密度可达的对象 3、没有新点可以更新簇时算法结束。
7、掌握谱聚类的算法
7.1、了解谱方阵的全体特征值称为方阵的谱以及谱半径最大的特征值称为谱半径 7.2、几个概念
di代表行列式的第i行的累加值。 邻接矩阵W又称为相似矩阵又为对称矩阵Wij与Wji的值相等即i、j的距离相等主对角线的值取0 7.2、了解谱分析的整体的过程
任意两个点之间的相似度可以用径向量机函数来求也就是两点之间的距离 过程 1、由度矩阵D和邻接矩阵W得到对应的L拉普拉斯矩阵的特征值行列式。 2、特征值值行列式中的每个λ代表的一个列向量 3、分成K个类别也就是取前K个特征值如下图所示。 4、特征值行列式的行向量的第i行也就代表第i个样本的特征表示 5、有了m个样本的特征表示就可以利用K-Means来进行聚类处理。
7.3、其他谱聚类算法
不同的谱聚类算法只是对应的拉普拉斯矩阵改变了其他的步骤都没变。
8、知道拉布拉斯矩阵 9、知道标签传递算法