我是靠谱客的博主 聪明钻石,这篇文章主要介绍Spark 聚类算法 ---- 聚类算法效果评估简介,现在分享给大家,希望可以做个参考。

文章大纲

  • 简介
  • spark 聚类评估
  • spark 聚类统计信息
    • kmeans_model.summary
    • spark 输出聚类类别和聚类中心及其统计值
  • 聚类评估指标
    • 轮廓系数
    • Calinski-Harabasz 指标
    • SSB
    • SSW
  • 参考文献


简介

Kmeans算法是个具有较强实用性的聚类算法,处理大数据集有较高的效率且具有可伸缩性。尤其适合接近线性时间复杂度的大规模数据集。K值的选取、初始聚类中心和初始划分对聚类结果有较大的影响,聚类结果的好坏可以用肘部法和轮廓分析法来评价,优化初始聚类中心店和改进距离量度方法可以提高结果的准确性。

与有监督学习不同的是,聚类分析没有一个可靠的评价指标,可以用来评价不同聚类算法的结果。此外,由于k m e a n s需要k作为输入,而不是从数据中学习,所以在任何问题中,对于集群的数量都没有绝对正确的答案。

局限性及其改进方向
k-means算法需要解决的问题和可能

最后

以上就是聪明钻石最近收集整理的关于Spark 聚类算法 ---- 聚类算法效果评估简介的全部内容,更多相关Spark内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(50)

评论列表共有 0 条评论

立即
投稿
返回
顶部