Spark 聚类算法 ---- 聚类算法效果评估简介

301 阅读 0 评论 199 点赞

我是靠谱客的博主聪明钻石，这篇文章主要介绍Spark 聚类算法 ---- 聚类算法效果评估简介，现在分享给大家，希望可以做个参考。

文章大纲

简介
spark 聚类评估
spark 聚类统计信息
- kmeans_model.summary
- spark 输出聚类类别和聚类中心及其统计值
聚类评估指标
- 轮廓系数
- Calinski-Harabasz 指标
- SSB
- SSW
参考文献

简介

Kmeans算法是个具有较强实用性的聚类算法，处理大数据集有较高的效率且具有可伸缩性。尤其适合接近线性时间复杂度的大规模数据集。K值的选取、初始聚类中心和初始划分对聚类结果有较大的影响，聚类结果的好坏可以用肘部法和轮廓分析法来评价，优化初始聚类中心店和改进距离量度方法可以提高结果的准确性。

与有监督学习不同的是，聚类分析没有一个可靠的评价指标，可以用来评价不同聚类算法的结果。此外，由于k m e a n s需要k作为输入，而不是从数据中学习，所以在任何问题中，对于集群的数量都没有绝对正确的答案。

局限性及其改进方向
k-means算法需要解决的问题和可能

最后

以上就是聪明钻石最近收集整理的关于Spark 聚类算法 ---- 聚类算法效果评估简介的全部内容，更多相关Spark内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(199)

本文分类：基于大数据的机器学习原理与最佳实践
浏览次数：301 次浏览
发布日期：2024-05-22 16:50:01

相关文章

java/scala下的最好用的数据绘图工具breeze-viz背景介绍breeze-viz介绍项目搭建创建绘图工程一些样例作者介绍

java/scala下的最好用的数据绘图工具breeze-viz背景介绍breeze-viz介绍项目搭建创建绘图工程一些样例作者介绍

C语言：用函数实现寻找一个二维数组的鞍点，即该行位置上的元素在该行上值最大，在该列上值最小

C语言：用函数实现寻找一个二维数组的鞍点，即该行位置上的元素在该行上值最大，在该列上值最小

手把手带你玩转Spark机器学习-使用Spark构建聚类模型系列文章目录前言一、获取数据集二、数据Load及Overview总结

手把手带你玩转Spark机器学习-使用Spark构建聚类模型系列文章目录前言一、获取数据集二、数据Load及Overview总结

《深度实践Spark机器学习》第10章构建Spark ML聚类模型

《深度实践Spark机器学习》第10章构建Spark ML聚类模型

Spark 聚类算法 ---- 聚类算法效果评估简介

Spark 聚类算法 ---- 聚类算法效果评估简介

Vue2.0 Vuex 多组件共享数据

Vue2.0 Vuex 多组件共享数据

VUE3.0,DAY60，多组件共享数据案例分析

VUE3.0,DAY60，多组件共享数据案例分析

React学习27（react-redux多组件共享数据）项目结构准备工作代码展示纯函数

React学习27（react-redux多组件共享数据）项目结构准备工作代码展示纯函数

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部