当前位置：首页 > news >正文

做网站的用途网站建设类岗位杭州

news 2025/11/20 17:48:55

做网站的用途,网站建设类岗位杭州,广西桂林阳朔有哪些旅游景点,工厂生产erp管理系统今天#xff0c;和大家分享一下机器学习之无监督学习中的常见的聚类方法。今天#xff0c;和大家分享一下机器学习之无监督学习中的常见的聚类方法。在无监督学习中#xff0c;我们的数据并不带有任何标签#xff0c;因此在无监督学习中要做的就是将这一系列无标签的数…今天和大家分享一下机器学习之无监督学习中的常见的聚类方法。今天和大家分享一下机器学习之无监督学习中的常见的聚类方法。在无监督学习中我们的数据并不带有任何标签因此在无监督学习中要做的就是将这一系列无标签的数据输入到算法中然后让算法找到一些隐含在数据中的结构通过下图中的数据可以找到的一个结构就是数据集中的点可以分成两组分开的点集簇能够圈出这些簇cluster的算法就叫做聚类算法clustering algorithm。聚类算法的应用市场分割将数据库中客户的信息根据市场进行不同的分组从而实现对其分别销售或者根据不同的市场进行服务改进。社交网络分析通过邮件最频繁联系的人及其最频繁联系的人来找到一个关系密切的群体。组织计算机集群在数据中心里计算机集群经常一起协同工作可以用它来重新组织资源、重新布局网络、优化数据中心以及通信数据。了解银河系的构成利用这些信息来了解一些天文学的知识。聚类分析的目标是将观测值划分为组“簇”以便分配到同一簇的观测值之间的成对差异往往小于不同簇中的观测值之间的差异。聚类算法分为三种不同的类型组合算法、混合建模和模式搜索。常见的几种聚类算法有 K-Means ClusteringHierarchical ClusteringAgglomerative ClusteringAffinity PropagationMean Shift ClusteringBisecting K-MeansDBSCANOPTICSBIRCH K-means K-means 算法是目前最流行的聚类方法之一。 K-means 是由贝尔实验室的 Stuart Lloyd 在 1957 年提出来的最开始是用于脉冲编码调制直到 1982 年才将该算法对外公布。1965 年Edward W.Forgy 发布了相同的算法因此 K-Means 有时被称为 Lloyd-Forgy。在聚类问题中我们会给定一组未加标签的数据集同时希望有一个算法能够自动地将这些数据分成有紧密关系的的coherent子集subsets 或是簇clusters。K 均值K-means算法是现在最热门最为广泛运用的聚类算法。直观理解 K 均值算法假如有一个无标签的数据集上图左并且我们想要将其分为两个簇现在执行 K 均值算法具体操作如下第一步随机生成两个点因为想要将数据聚成两类上图右这两个点叫做聚类中心cluster centroids。第二步进行 K 均值算法的内循环。K 均值算法是一个迭代算法它会做两件事情第一个是簇分配cluster assignment第二个是移动聚类中心move centroid。内循环的第一步是要进行簇分配也就是说遍历每一个样本再根据每一个点到聚类中心距离的远近将其分配给不同的聚类中心离谁近分配给谁对于本例而言就是遍历数据集将每个点染成红色或蓝色。内循环的第二步是移动聚类中心将红色和蓝色的聚类中心移动到各自点的均值处每组点的平均位置。接着就是将所有的点根据与新的聚类中心距离的远近进行新的簇分配如此循环直至聚类中心的位置不再随着迭代而改变并且点的颜色也不再发生改变此时可以说 K 均值已经聚合了。该算法在找出数据中两个簇的方面做的相当好。 K-Means算法的优点简单易懂计算速度较快适用于大规模数据集。缺点例如对于非球形簇的处理能力较差容易受到初始簇心的选择影响需要预先指定簇的数量K等。此外当数据点之间存在噪声或者离群点时K-Means算法可能会将它们分配到错误的簇中。 Hierarchical Clustering 层次聚类Hierarchical Clustering顾名思义就是按照某个层次对样本集进行聚类操作这里的层次实际上指的就是某种距离定义。层次聚类最终的目的是消减类别的数量所以在行为上类似于树状图由叶节点逐步向根节点靠近的过程这种行为过程又被称为“自底向上”。更通俗的层次聚类是将初始化的多个类簇看做树节点每一步迭代都是将两两相近的类簇合并成一个新的大类簇如此反复直至最终只剩一个类簇根节点。层次聚类策略分为两种基本范式聚集型(自下而上)和分裂型(自上而下)。与层次聚类相反的是分裂聚类divisive clustering又名 DIANA(Divise Analysis)它的行为过程为“自顶向下”。应用 K-means 的结果取决于要搜索的聚类数量的选择和起始配置分配。相反层次聚类方法不需要这样的规范。相反它们要求用户根据两组观察值之间的成对差异性指定不相交观察组之间的差异性度量。顾名思义它们产生层次结构表示其中层次结构每个级别的集群都是通过合并下一个较低级别的集群来创建的。在最低级别每个集群包含一个观察值。在最高级别只有一个集群包含所有数据。优点距离和规则的相似度容易定义限制少不需要预先制定聚类数可以发现类的层次关系可以聚类成其它形状。缺点计算复杂度太高奇异值也能产生很大影响算法很可能聚类成链状。 Agglomerative Clustering 凝聚层次聚类Agglomerative Clustering是一种自底向上的聚类算法它将每个数据点视为一个初始簇并将它们逐步合并成更大的簇直到达到停止条件为止。在该算法中每个数据点最初被视为一个单独的簇然后逐步合并簇直到所有数据点被合并为一个大簇。优点适用于不同形状和大小的簇且不需要事先指定聚类数目。该算法也可以输出聚类层次结构便于分析和可视化。缺点计算复杂度较高尤其是在处理大规模数据集时需要消耗大量的计算资源和存储空间。该算法对初始簇的选择也比较敏感可能会导致不同的聚类结果。 Affinity Propagation Affinity PropagationAP算法通常被翻译为近邻传播算法或者亲和力传播算法, Affinity Propagation 是一种基于图论的聚类算法旨在识别数据中的exemplars(代表点)和clusters(簇)。与 K-Means 等传统聚类算法不同Affinity Propagation 不需要事先指定聚类数目也不需要随机初始化簇心而是通过计算数据点之间的相似性得出最终的聚类结果。优点不需要制定最终聚类族的个数已有的数据点作为最终的聚类中心而不是新生成一个簇中心。模型对数据的初始值不敏感。对初始相似度矩阵数据的对称性没有要求。相比与 k-centers 聚类方法其结果的平方差误差较小。缺点该算法的计算复杂度较高需要大量的存储空间和计算资源对于噪声点和离群点的处理能力较弱。 Mean Shift Clustering Mean Shift Clustering 是一种基于密度的非参数聚类算法其基本思想是通过寻找数据点密度最大的位置称为局部最大值或高峰来识别数据中的簇。算法的核心是通过对每个数据点进行局部密度估计并将密度估计的结果用于计算数据点移动的方向和距离。算法的核心是通过对每个数据点进行局部密度估计并将密度估计的结果用于计算数据点移动的方向和距离。优点不需要指定簇的数目且对于形状复杂的簇也有很好的效果。算法还能够有效地处理噪声数据。缺点计算复杂度较高尤其是在处理大规模数据集时需要消耗大量的计算资源和存储空间该算法还对初始参数的选择比较敏感需要进行参数调整和优化。 Bisecting K-Means Bisecting K-Means 是一种基于 K-Means 算法的层次聚类算法其基本思想是将所有数据点划分为一个簇然后将该簇分成两个子簇并对每个子簇分别应用 K-Means 算法重复执行这个过程直到达到预定的聚类数目为止。算法首先将所有数据点视为一个初始簇然后对该簇应用K-Means算法将该簇分成两个子簇并计算每个子簇的误差平方和SSE。然后选择误差平方和最大的子簇并将其再次分成两个子簇重复执行这个过程直到达到预定的聚类数目为止。优点具有较高的准确性和稳定性能够有效地处理大规模数据集并且不需要指定初始聚类数目。该算法还能够输出聚类层次结构便于分析和可视化。缺点计算复杂度较高尤其是在处理大规模数据集时需要消耗大量的计算资源和存储空间。此外该算法对初始簇的选择也比较敏感可能会导致不同的聚类结果。 DBSCAN 具有噪声的基于密度的聚类方法Density-Based Spatial Clustering of Applications with NoiseDBSCAN是一种典型的基于密度的空间聚类算法。基于密度的方法的特点是不依赖于距离而是依赖于密度从而克服基于距离的算法只能发现“球形”聚簇的缺点。 DBSCAN算法的核心思想是对于一个给定的数据点如果它的密度达到一定的阈值则它属于一个簇中否则它被视为噪声点。优点这类算法能克服基于距离的算法只能发现“类圆形”(凸)的聚类的缺点可发现任意形状的聚类且对噪声数据不敏感不需要指定类的数目 cluster算法中只有两个参数扫描半径 (eps)和最小包含点数(min_samples)。缺点计算复杂度不进行任何优化时算法的时间复杂度是O(N^{2})通常可利用R-treek-d tree, balltree索引来加速计算将算法的时间复杂度降为O(Nlog(N))受eps影响较大。在类中的数据分布密度不均匀时eps较小时密度小的cluster会被划分成多个性质相似的clustereps较大时会使得距离较近且密度较大的cluster被合并成一个cluster。在高维数据时因为维数灾难问题eps的选取比较困难依赖距离公式的选取由于维度灾害距离的度量标准不重要不适合数据集集中密度差异很大的因为eps和metric选取很困难。 OPTICS OPTICSOrdering Points To Identify the Clustering Structure是一种基于密度的聚类算法其能够自动确定簇的数量同时也可以发现任意形状的簇并能够处理噪声数据。 OPTICS 算法的核心思想是对于一个给定的数据点通过计算它到其它点的距离确定其在密度上的可达性从而构建一个基于密度的距离图。然后通过扫描该距离图自动确定簇的数量并对每个簇进行划分。优点能够自动确定簇的数量并能够处理任意形状的簇并能够有效地处理噪声数据。该算法还能够输出聚类层次结构便于分析和可视化。缺点计算复杂度较高尤其是在处理大规模数据集时需要消耗大量的计算资源和存储空间。该算法对于密度差异较大的数据集可能会导致聚类效果不佳。 BIRCH BIRCHBalanced Iterative Reducing and Clustering using Hierarchies是一种基于层次聚类的聚类算法其可以快速地处理大规模数据集并且对于任意形状的簇都有较好的效果。 BIRCH算法的核心思想是通过对数据集进行分级聚类逐步减小数据规模最终得到簇结构。BIRCH算法采用一种类似于B树的结构称为CF树它可以快速地插入和删除子簇并且可以自动平衡从而确保簇的质量和效率。优点能够快速处理大规模数据集并且对于任意形状的簇都有较好的效果。该算法对于噪声数据和离群点也有较好的容错性。缺点对于密度差异较大的数据集可能会导致聚类效果不佳对于高维数据集的效果也不如其他算法。

查看全文

http://www.pierceye.com/news/384365/