概述
文章大纲
- 简介
- spark 聚类评估
- spark 聚类统计信息
-
- kmeans_model.summary
- spark 输出聚类类别和聚类中心及其统计值
- 聚类评估指标
-
- 轮廓系数
- Calinski-Harabasz 指标
- SSB
- SSW
- 参考文献
简介
Kmeans算法是个具有较强实用性的聚类算法,处理大数据集有较高的效率且具有可伸缩性。尤其适合接近线性时间复杂度的大规模数据集。K值的选取、初始聚类中心和初始划分对聚类结果有较大的影响,聚类结果的好坏可以用肘部法和轮廓分析法来评价,优化初始聚类中心店和改进距离量度方法可以提高结果的准确性。
与有监督学习不同的是,聚类分析没有一个可靠的评价指标,可以用来评价不同聚类算法的结果。此外,由于k m e a n s需要k作为输入,而不是从数据中学习,所以在任何问题中,对于集群的数量都没有绝对正确的答案。
局限性及其改进方向
k-means算法需要解决的问题和可能
最后
以上就是聪明钻石为你收集整理的Spark 聚类算法 ---- 聚类算法效果评估简介的全部内容,希望文章能够帮你解决Spark 聚类算法 ---- 聚类算法效果评估简介所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复