概述
1. 聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。
其目标是组内的对象相互之间是相似的或者相关的,而不同组中的对象是不同的或者不相关的。
2.聚类分析的重要技术
K均值:K均值是基于原型的、划分的聚类技术。它试图发现用户指定个数k的簇(由质心代表)
邻近度函数 | 质心 | 目标函数 |
曼哈顿距离L1 | 中位数 | 最小化对象到其簇质心的L1距离和 |
平方欧几里得距离L2平方 | 均值 | 最小化对象到其簇质心的L2距离的平方和 |
余弦 | 均值 | 最大化对象与其簇质心的余弦相似度和 |
Bregman散度 | 均值 | 最小化对象到其簇质心的Bregman散度和 |
SSE(Sum of Squared Error)误差的平方和
凝聚的层次聚类:
层次聚类常常使用树状图dendrogram,对于二维点的聚合,层次聚类也可以使用嵌套簇图。
单琏:MIN 全琏:MAX 组平均:GROUP AVERAGE
Ward方法:两个簇的邻近度定义为两个簇合并时导致的平方误差的增量。
簇邻近度的LANCE-WILLIAMS公式
DBSCAN:是一种简单、有效的基于密度的聚类算法。
核心点
边界点
噪声点
3.簇评估
非监督簇评估
簇的凝聚性(紧凑性,紧致性)度量确定簇中对象如何密切相关
簇的分离线度量确定某个簇中不同于其他簇的地方。
非监督簇评估:使用临近度矩阵
转载于:https://www.cnblogs.com/davidwang456/p/9698118.html
最后
以上就是紧张火龙果为你收集整理的<数据挖掘导论>读书笔记9聚类分析的全部内容,希望文章能够帮你解决<数据挖掘导论>读书笔记9聚类分析所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复