江门建站价格,福田汽车官网报价大全,穿搭速递html网页制作代码,做淘宝客网站会犯法吗K-Means聚类概念#xff1a;
K-Means聚类是最常用的聚类算法#xff0c;最初起源于信号处理#xff0c;其目标是将数据点划分为K个类簇#xff0c; 找到每个簇的中心并使其度量最小化。 该算法的最大优点是简单、便于理解#xff0c;运算速度较快#xff0c;缺点是只能应…K-Means聚类概念
K-Means聚类是最常用的聚类算法最初起源于信号处理其目标是将数据点划分为K个类簇 找到每个簇的中心并使其度量最小化。 该算法的最大优点是简单、便于理解运算速度较快缺点是只能应用于连续型数据并且要 在聚类前指定聚集的类簇数。 k-means算法是一种原型聚类算法。
K-Means聚类分析流程
第一步确定K值即将数据集聚集成K个类簇或小组。 第二步从数据集中随机选择K个数据点作为质心Centroid或数据中心。 第三步分别计算每个点到每个质心之间的距离并将每个点划分到离最近质心的小组。 第四步当每个质心都聚集了一些点后重新定义算法选出新的质心。对于每个簇计 算其均值即得到新的k个质心点 第五步迭代执行第三步到第四步直到迭代终止条件满足为止分类结果不再变化 举个例子 起始情况 第一步确定K值即将数据集聚集成K个类簇或小组。 ----这里我们选K2 第二步从数据集中随机选择K个数据点作为质心Centroid或数 据中心。----假设我们选择P1和P2作为初始的质心 第三步分别计算每个点到每个质心之间的距离并将每个点划分 到离最近质心的小组。 ----计算P3到P1的距离√10 3.16 ----计算P3到P2的距离√((3-1)2(1-2)2 √5 2.24 ----所以P3离P2更近P3就加入P2的簇。同理P4、P5、P6 P3到P6都跟P2更近所以第一次分组的结果是 • 组AP1 • 组BP2、P3、P4、P5、P6 按照上一次的方法选出两个新的虚拟质心 —P哥11.331 P哥298.33。 第三次计算点到质心的距离 — 这时可以看到P1、P2、P3离P哥1更近P4、 P5、P6离P哥2更近。 所以第三次分组的结果是 • 组AP1、P2、P3 • 组BP4、P5、P6 我们发现这次分组的结果和上次没有任何变化了说 明已经收敛聚类结束。
K-Means聚类应用
在图像处理中通过K-Means聚类算法可以实现图像分割、图像聚类、图像识别等操作。 我们通过K-Means可以将这些像素点聚类成K个簇然后使用每个簇内的质心点来替换簇内所有 的像素点这样就能实现在不改变分辨率的情况下量化压缩图像颜色实现图像颜色层级分割。
K-Means聚类优缺点
优点 1.是解决聚类问题的一种经典算法简单、快速 2.对处理大数据集该算法保持可伸缩性和高效率 3.当结果簇是密集的它的效果较好 缺点 1.在簇的平均值可被定义的情况下才能使用可能不适用于某些应用 2.必须事先给出k要生成的簇的数目而且对初值敏感对于不同的初始值可能会导致不同结果。 3.不适合于发现非凸形状的簇或者大小差别很大的簇 4.对躁声和孤立点数据敏感
算法实现
简单的灰色图像聚类 在OpenCV中Kmeans()函数原型如下所示
compactness, Labels, centers kmeans(data, K, bestLabels, criteria, attempts, flags[, centers])返回值compactness紧密度返回每个点到相应重心的距离的平方和labels结果标记每个成员被标记为分组的序号如 0,1,2,3,4...等centers由聚类的中心组成的数组输入值data表示聚类数据最好是np.flloat32类型的N维点集K表示聚类类簇数bestLabels表示输出的整数数组用于存储每个样本的聚类标签索引criteria表示算法终止条件即最大迭代次数或所需精度。在某些迭代中一旦每个簇中心的移动小于criteria.epsilon算法就会停止attempts表示重复试验kmeans算法的次数算法返回产生最佳紧凑性的标签flags表示初始中心的选择两种方法是cv2.KMEANS_PP_CENTERS ;和cv2.KMEANS_RANDOM_CENTERScenters表示集群中心的输出矩阵每个集群中心为一行数据
import cv2
import numpy as np
import matplotlib.pyplot as plt#读取原始图像灰度颜色
img cv2.imread(lenna.png, 0)
print (img.shape)#获取图像高度、宽度
rows, cols img.shape[:]#图像二维像素转换为一维
data img.reshape((rows * cols, 1))
data np.float32(data)#定义终止条件 (type,max_iter,epsilon)
criteria (cv2.TERM_CRITERIA_EPS cv2.TERM_CRITERIA_MAX_ITER, 10, 1.0)#每次随机选择初始中心
flags cv2.KMEANS_RANDOM_CENTERS#K-Means聚类 聚集成4类
compactness, labels, centers cv2.kmeans(data, 4, None, criteria, 10, flags)#生成最终图像
dst labels.reshape((img.shape[0], img.shape[1]))#用来正常显示中文标签
plt.rcParams[font.sans-serif][SimHei]#显示图像
titles [u原始图像, u聚类图像]
images [img, dst]
for i in range(2): plt.subplot(1,2,i1), plt.imshow(images[i], gray), plt.title(titles[i]) plt.xticks([]),plt.yticks([])
plt.show()结果展示 彩色图像不同类数的聚类效果对比
import cv2
import numpy as np
import matplotlib.pyplot as plt#读取原始图像
img cv2.imread(lenna.png)
print (img.shape)#图像二维像素转换为一维
data img.reshape((-1,3))
#先前我们不知道z的shape属性是多少但是想让z变成只有三列
data np.float32(data)
#转换为float32位#定义终止条件(type,max_iter,epsilon)
criteria (cv2.TERM_CRITERIA_EPS cv2.TERM_CRITERIA_MAX_ITER, 10, 1.0)#随机选定初始中心
flags cv2.KMEANS_RANDOM_CENTERS#K-Means聚类 聚集成2类
compactness, labels2, centers2 cv2.kmeans(data, 2, None, criteria, 10, flags)#K-Means聚类 聚集成4类
compactness, labels4, centers4 cv2.kmeans(data, 4, None, criteria, 10, flags)#K-Means聚类 聚集成8类
compactness, labels8, centers8 cv2.kmeans(data, 8, None, criteria, 10, flags)#K-Means聚类 聚集成16类
compactness, labels16, centers16 cv2.kmeans(data, 16, None, criteria, 10, flags)#K-Means聚类 聚集成64类
compactness, labels64, centers64 cv2.kmeans(data, 64, None, criteria, 10, flags)#图像转换回uint8二维类型
centers2 np.uint8(centers2)
res centers2[labels2.flatten()]
dst2 res.reshape((img.shape))centers4 np.uint8(centers4)
res centers4[labels4.flatten()]
dst4 res.reshape((img.shape))centers8 np.uint8(centers8)
res centers8[labels8.flatten()]
dst8 res.reshape((img.shape))centers16 np.uint8(centers16)
res centers16[labels16.flatten()]
dst16 res.reshape((img.shape))centers64 np.uint8(centers64)
res centers64[labels64.flatten()]
dst64 res.reshape((img.shape))#图像转换为RGB显示
img cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
dst2 cv2.cvtColor(dst2, cv2.COLOR_BGR2RGB)
dst4 cv2.cvtColor(dst4, cv2.COLOR_BGR2RGB)
dst8 cv2.cvtColor(dst8, cv2.COLOR_BGR2RGB)
dst16 cv2.cvtColor(dst16, cv2.COLOR_BGR2RGB)
dst64 cv2.cvtColor(dst64, cv2.COLOR_BGR2RGB)#用来正常显示中文标签
plt.rcParams[font.sans-serif][SimHei]#显示图像
titles [u原始图像, u聚类图像 K2, u聚类图像 K4,u聚类图像 K8, u聚类图像 K16, u聚类图像 K64]
images [img, dst2, dst4, dst8, dst16, dst64]
for i in range(6): plt.subplot(2,3,i1), plt.imshow(images[i], gray), plt.title(titles[i]) plt.xticks([]),plt.yticks([]) #xticks()函数可以用来设置使x轴上ticks隐藏即将空数组赋予它则没有tick会显示在x轴上
plt.show()
输出结果