nas 建网站,188自助建站系统,海外直播,玩家自助充值网站建设一、聚类概念
1#xff0c;通俗易懂而言#xff0c;聚类主要运用于无监督学习中#xff0c;也就是将没有标签的东西如何分为几堆儿。 2#xff0c;无监督学习即没有标签#xff0c;不知道这些玩意到底是啥。当然#xff0c;有监督学习就是由标签#xff0c;我们是提前知…一、聚类概念
1通俗易懂而言聚类主要运用于无监督学习中也就是将没有标签的东西如何分为几堆儿。 2无监督学习即没有标签不知道这些玩意到底是啥。当然有监督学习就是由标签我们是提前知道这些玩意是啥。 3聚类问题存在的问题难点你咋知道这些玩意儿是一类怕啥你通过啥进行判断分类的也就是如何评估和如何调参问题。
二、K-MEANS算法
Ⅰ基本概念
1需要得到簇的个数即需要指定K值。需要划分多少类。 2质心均值即向量各维取平均。例如五个点其质心坐标为((x1x2x3x4x5)/5,(y1y2y3y4y5)/5) 3距离的度量常用欧几里得距离和余弦相似度先标准化 4优化目标求出每个点到哪个质心距离最近
Ⅱ算法思路
①首先取得一些数据点 ②假设K设置成2随便找取两个初始化点 ③开始迭代所有的绿色点看看离哪个质心(红色还是蓝色)最近离谁近就跟谁一个簇 ④把所有红色和蓝色的点全部取出来求取质心重新获取质心更新质心参数 ⑤重新对所有的数据进行求取离哪个质心最近就跟哪个质心为同一簇 ⑥继续将所有的红色和蓝色点再次分别求取质心再对所有点进行遍历看离哪个质心距离近就和哪个质心为同一簇 ⑦再次将所有的红色和蓝色点分别求取质心再次遍历所有点找离哪个质心最近归为一簇直到所有的点归属簇不再发生变动为止
Ⅲ优劣势
优点简单、快速、适合一般情况下的常规数据集 缺点K值不容易确定、复杂度和样本呈线性关系、很难发现任意形状的簇
ⅣK-Means可视化展示
K-Means可视化展示网站
三、DBSCAN算法
Ⅰ基本概念
DBSCANDensity-Based Spatial Clustering of Applications with Noise 画圈---找点---发展下线开始洗脑
1核心对象若某个点的密度达到算法设定的阈值则其为核心点。即 r 邻域内点的数量不小于 minPts 2ϵ-邻域的距离阈值设定的半径r 3直接密度可达若某点p在点q的 r 邻域内且q是核心点则p-q直接密度可达。 4密度可达若有一个点的序列q0、q1、…qk对任意q(i)—q(i-1)是直接密度可达的 则称从q0到qk密度可达这实际上是直接密度可达的“传播”。 5密度相连若从某核心点p出发点q和点k都是密度可达的 ,则称点q和点k是密度相连的。 6边界点:属于某一个类的非核心点,不能发展下线了 7噪声点不属于任何一个类簇的点从任何一个核心点出发都是密度不可达的 A核心对象、B,C边界点、N离群点
Ⅱ算法思路
①输入参数D即你的数据集 输入参数ϵ即指定半径 输入参数MinPts密度阈值也就是画出来的圈内最少得有这么多点才行 ②参数选择 1半径ϵ可以根据K距离来设定找突变点K距离给定数据集P{p(i); i0,1,…n}计算点P(i)到集合D的子集S中所有点之间的距离距离按照从小到大的顺序排序d(k)就被称为k-距离。 2MinPts k-距离中k的值一般取的小一些多次尝试
Ⅲ优劣势
优势不需要指定簇个数、可以发现任意形状的簇、擅长找到离群点检测任务、两个参数就够了 劣势高维数据有些困难可以做降维、参数难以选择参数对结果的影响非常大、Sklearn中效率很慢数据削减策略
ⅣDBSCAN可视化展示
DBSCAN可视化展示网站