mip手机网站模板,贵阳微信网站制作,网站建设技术员工资,旅游网站建设的目的及功能定位#x1f935;♂️ 个人主页: AI_magician #x1f4e1;主页地址#xff1a; 作者简介#xff1a;CSDN内容合伙人#xff0c;全栈领域优质创作者。 #x1f468;#x1f4bb;景愿#xff1a;旨在于能和更多的热爱计算机的伙伴一起成长#xff01;#xff01;… ♂️ 个人主页: AI_magician 主页地址 作者简介CSDN内容合伙人全栈领域优质创作者。 景愿旨在于能和更多的热爱计算机的伙伴一起成长 ♂️声明本人目前大学就读于大二研究兴趣方向人工智能硬件虽然硬件还没开始玩但一直很感兴趣希望大佬带带 【深度学习 | 核心概念】那些深度学习路上必经的核心概念确定不来看看 一 作者 计算机魔术师 版本 1.0 2023.8.27 摘要 本系列旨在普及那些深度学习路上必经的核心概念文章内容都是博主用心学习收集所写欢迎大家三联支持本系列会一直更新核心概念系列会一直更新欢迎大家订阅 该文章收录专栏 [✨— 《深入解析机器学习从原理到应用的全面指南》 —✨] 聚类算法
聚类算法是一种无监督学习的机器学习算法用于将数据集中的样本划分为具有相特征的组或簇。其目标划分的原则是组内(内部)距离最小化而组间(外部)距离最大化。在商业上聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体并且概括出每一类消费者的消费模式或消费习惯。同时聚类分析也可以作为数据分析算法中其他分析算法的一个预处理步骤如异常值识别、连续型特征离散化等。
以下是基于不同方法的算法类别表
算法类别包括的主要算法优缺点分析划分分裂方法K-Means算法K-平均K-MEDOIDS算法K-中心点和CLARANS算法基于选择的算法。优点简单且易于实现对处理大数据集和高维数据具有良好的可扩展性。缺点对初始聚类中心的选择敏感可能收敛到局部最优解对异常值和噪声敏感。层次分析方法BIRCH算法平衡迭代规约和聚类CURE算法代表点聚类和CHAMELEON算法动态模型。优点可以自动发现任意形状和大小的聚类不需要预先指定聚类个数。缺点对于大数据集计算成本较高可能受到噪声和异常点的干扰。基于密度的方法DBSCAN算法基于高密度连接区域DENCLUE算法密度分布函数和OPTICS算法对象排序识别。优点能够发现任意形状的聚类对噪声和异常值具有较好的鲁棒性。缺点对于高维数据和具有不同密度聚类的数据集效果较差需要事先指定一些参数。基于网格的方法STING算法统计信息网络CLIOUE算法聚类高维空间和WAVE-CLUSTER算法小波变换。优点对于高维数据和大规模数据集有良好的可扩展性能够处理不同形状和大小的聚类。缺点对初始网格的选择敏感可能受到数据分布的影响。
以下是常用的聚类算法
聚类算法模型所需参数适用范围距离度量优缺点K-means簇的数量数值型数据欧几里德距离优点简单易实现计算效率高缺点对初始聚类中心敏感不适用于非凸形状的簇层次聚类Hierarchical Clustering距离或相似度的度量方法数值型或类别型数据可选多种距离度量方法如欧几里德距离、曼哈顿距离等优点不需要预先指定簇的数量可用于发现任意形状的簇缺点计算复杂度高不适用于处理大规模数据DBSCAN邻域半径epsilon和最小邻域样本数min_samples数值型或类别型数据基于密度的距离度量优点能够发现任意形状的簇对初始聚类中心不敏感缺点对参数的选择敏感不适用于高维数据密度聚类Density-Based Clustering邻域密度阈值数值型或类别型数据基于密度的距离度量优点对噪声数据和离群点具有较好的鲁棒性缺点对参数的选择敏感局部离群因子Local Outlier FactorLOF邻域大小k数值型或类别型数据基于密度的距离度量优点能够检测出离群点和数据集中的聚类结构缺点对数据集中的局部结构敏感高斯混合模型Gaussian Mixture ModelGMM簇的数量数值型数据基于概率模型的距离度量优点能够对数据进行软聚类灵活性高缺点对初始聚类中心敏感计算复杂度高
以下是常用的聚类中的距离度量算法及其介绍以及相应的优缺点分析
名称介绍优缺点分析欧氏距离Euclidean Distance欧氏距离是最常用的距离度量算法之一它衡量两个向量之间的直线距离。在欧氏空间中两个向量的欧氏距离等于它们各个维度差值的平方和的开方。优点简单直观易于理解和计算。缺点对异常值敏感受维度灾难影响。曼哈顿距离Manhattan Distance曼哈顿距离衡量两个向量之间沿坐标轴的总距离。在二维空间中曼哈顿距离等于两个点横坐标差的绝对值加上纵坐标差的绝对值。优点对异常值不敏感适用于稀疏数据。缺点不考虑维度之间的相关性。切比雪夫距离Chebyshev Distance切比雪夫距离是衡量两个向量之间的最大维度差值。在二维空间中切比雪夫距离等于两个点横坐标差的最大绝对值和纵坐标差的最大绝对值中的较大值。优点对异常值不敏感适用于稀疏数据。缺点不考虑维度之间的相关性。闵可夫斯基距离Minkowski Distance闵可夫斯基距离是欧氏距离和曼哈顿距离的一种推广它通过参数p来控制距离的计算方式。当p1时闵可夫斯基距离等同于曼哈顿距离当p2时等同于欧氏距离。优点灵活性强可以根据需求选择不同的参数p。缺点对于参数p的选择较为敏感。马氏距离Mahalanobis Distance马氏距离考虑了数据集的协方差矩阵通过将数据映射到一个空间中使得在该空间中的欧氏距离与原始空间中的马氏距离等价。马氏距离可以解决特征之间的相关性和尺度不同的问题。优点考虑了特征之间的相关性适用于高维数据。缺点需要估计协方差矩阵计算复杂度较高。皮尔逊相关系数Pearson Correlation Coefficient皮尔逊相关系数衡量两个向量之间的线性相关性。它的取值范围在-1到1之间其中-1表示完全负相关1表示完全正相关0表示无相关性。优点可以衡量线性相关性不受尺度变换影响。缺点只能衡量线性相关性对于非线性关系不敏感。余弦相似度Cosine Similarity余弦相似度衡量两个向量之间的夹角余弦。它通过计算两个向量的内积除以它们的模的乘积来衡量相似度。余弦相似度的取值范围在-1到1之间其中1表示完全相似-1表示完全相反0表示无相似性。优点对于稀疏向量计算高效不受维度灾难影响。缺点不考虑维度之间的差异。
其中大部分算法都可以通过sklearn 库进行实现. 到这里如果还有什么疑问欢迎私信博主问题哦博主会尽自己能力为你解答疑惑的如果对你有帮助你的赞是对博主最大的支持