我是靠谱客的博主 紧张火龙果,最近开发中收集的这篇文章主要介绍<数据挖掘导论>读书笔记9聚类分析,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1. 聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。

其目标是组内的对象相互之间是相似的或者相关的,而不同组中的对象是不同的或者不相关的。

2.聚类分析的重要技术

   K均值:K均值是基于原型的、划分的聚类技术。它试图发现用户指定个数k的簇(由质心代表)

邻近度函数质心目标函数
曼哈顿距离L1中位数最小化对象到其簇质心的L1距离和
平方欧几里得距离L2平方均值最小化对象到其簇质心的L2距离的平方和
余弦均值最大化对象与其簇质心的余弦相似度和
Bregman散度均值最小化对象到其簇质心的Bregman散度和

  SSE(Sum of Squared Error)误差的平方和

  凝聚的层次聚类:

  层次聚类常常使用树状图dendrogram,对于二维点的聚合,层次聚类也可以使用嵌套簇图。

       单琏:MIN  全琏:MAX  组平均:GROUP AVERAGE

  Ward方法:两个簇的邻近度定义为两个簇合并时导致的平方误差的增量。

       簇邻近度的LANCE-WILLIAMS公式

  DBSCAN:是一种简单、有效的基于密度的聚类算法。

  核心点

  边界点

  噪声点

3.簇评估

非监督簇评估

  簇的凝聚性(紧凑性,紧致性)度量确定簇中对象如何密切相关

  簇的分离线度量确定某个簇中不同于其他簇的地方。 

非监督簇评估:使用临近度矩阵

转载于:https://www.cnblogs.com/davidwang456/p/9698118.html

最后

以上就是紧张火龙果为你收集整理的<数据挖掘导论>读书笔记9聚类分析的全部内容,希望文章能够帮你解决<数据挖掘导论>读书笔记9聚类分析所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(38)

评论列表共有 0 条评论

立即
投稿
返回
顶部