我是靠谱客的博主 聪明钻石,最近开发中收集的这篇文章主要介绍Spark 聚类算法 ---- 聚类算法效果评估简介,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

文章大纲

  • 简介
  • spark 聚类评估
  • spark 聚类统计信息
    • kmeans_model.summary
    • spark 输出聚类类别和聚类中心及其统计值
  • 聚类评估指标
    • 轮廓系数
    • Calinski-Harabasz 指标
    • SSB
    • SSW
  • 参考文献


简介

Kmeans算法是个具有较强实用性的聚类算法,处理大数据集有较高的效率且具有可伸缩性。尤其适合接近线性时间复杂度的大规模数据集。K值的选取、初始聚类中心和初始划分对聚类结果有较大的影响,聚类结果的好坏可以用肘部法和轮廓分析法来评价,优化初始聚类中心店和改进距离量度方法可以提高结果的准确性。

与有监督学习不同的是,聚类分析没有一个可靠的评价指标,可以用来评价不同聚类算法的结果。此外,由于k m e a n s需要k作为输入,而不是从数据中学习,所以在任何问题中,对于集群的数量都没有绝对正确的答案。

局限性及其改进方向
k-means算法需要解决的问题和可能

最后

以上就是聪明钻石为你收集整理的Spark 聚类算法 ---- 聚类算法效果评估简介的全部内容,希望文章能够帮你解决Spark 聚类算法 ---- 聚类算法效果评估简介所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(42)

评论列表共有 0 条评论

立即
投稿
返回
顶部