博主辛苦了,我要打赏银两给博主,犒劳犒劳站长。
【摘要】聚类是一种无监督的,寻找最优划分的学习过程。多数情况下,事先对数据集的结构及分布一无所知,因此,需要对聚类结果进行合理性和有效性评价,这对聚类分析具有重要意义,也是聚类分析的瓶颈之一。
人们把对聚类结果的有效性验证、寻找最优划分和最佳聚类数c等问题称为聚类有效性问题。聚类有效性问题可通过聚类有效性指标来定量地研究。
有效性指标用以衡量聚类算法结果的好坏,好的聚类结果应该满足两个条件:一是类内部尽可能紧凑;二是类与类之间的距离尽可能远。
利用聚类有效性指标获得最佳聚类数的过程是一种迭代的过程。在给定的数据集上,使用不同的参数c运行特定的聚类算法对数据进行划分,计算每种划分的聚类有效性指标值,最后比较分析各个指标值的大小或变化情况,符合预定条件的指标值所对应的聚类个数c即为最佳聚类数。
聚类有效性指标即可用来评价聚类结果的有效性,也可以用来确定最佳聚类数。(当数据集的聚类数未知时,有效性指标可以用来确定最佳聚类数)
聚类有效性问题是否合理以及如何获取最佳聚类别数属于聚类有效性问题。聚类有效性问题是聚类分析中的核心问题之一,构造聚类有效性函数是求解该问题的常用方法。一般地,在明确给定的数据集具有聚类趋势的前提下,可以根据相应的算法进行聚类。但是聚类的结果是否合理,则需要进行有效性分享。
版权归 马富天PHP博客 所有
本文链接地址:http://www.mafutian.net/183.html
转载请务必注明出处,小生将不胜感激,谢谢! 喜欢本文或觉得本文对您有帮助,请分享给您的朋友 ^_^
顶0
踩0
评论审核未开启 |