文章大纲
- 简介
- spark 聚类评估
- spark 聚类统计信息
-
- kmeans_model.summary
- spark 输出聚类类别和聚类中心及其统计值
- 聚类评估指标
-
- 轮廓系数
- Calinski-Harabasz 指标
- SSB
- SSW
- 参考文献
简介
Kmeans算法是个具有较强实用性的聚类算法,处理大数据集有较高的效率且具有可伸缩性。尤其适合接近线性时间复杂度的大规模数据集。K值的选取、初始聚类中心和初始划分对聚类结果有较大的影响,聚类结果的好坏可以用肘部法和轮廓分析法来评价,优化初始聚类中心店和改进距离量度方法可以提高结果的准确性。
与有监督学习不同的是,聚类分析没有一个可靠的评价指标,可以用来评价不同聚类算法的结果。此外,由于k m e a n s需要k作为输入,而不是从数据中学习,所以在任何问题中,对于集群的数量都没有绝对正确的答案。
局限性及其改进方向
k-means算法需要解决的问题和可能
最后
以上就是聪明钻石最近收集整理的关于Spark 聚类算法 ---- 聚类算法效果评估简介的全部内容,更多相关Spark内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复