机器学习评估标准汇总以及在python中的函数调用聚类性能度量参考资料

86 阅读 0 评论 57 点赞

我是靠谱客的博主粗暴小白菜，最近开发中收集的这篇文章主要介绍机器学习评估标准汇总以及在python中的函数调用聚类性能度量参考资料，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

机器学习评估标准汇总（未完）

聚类性能度量
- 外部指标
- - Jaccard系数
  - FM指数
- 内部指标
- - DB指数
  - Dunn指数
参考资料

python环境

聚类性能度量

外部指标

聚类结果与某个参考模型进行比较

首先，先定义计算用到的数据集。对于数据集 $D={x_1,x_2,...,x_n}$ ，假定通过聚类得出的聚类结果为 $C={c_1,c_2,...c_k}$ ，每一类的类别标签为 $λ$ ；参考模型的聚类结果为 $C^*={c^*_1, c^*_2,...,c^*_s}$ ，类别标签为 $lambda^*$ 。
定义四个集合：
$SS={(x_i,x_j)|lambda_i=lambda_j,lambda^*_i=lambda^*_j,i<j}$
$SD={(x_i,x_j)|lambda_i=lambda_j,lambda^*_i neq lambda^*_j,i<j}$
$DS={(x_i,x_j)|lambda_i neq lambda_j,lambda^*_i=lambda^*_j,i<j}$
$DD={(x_i,x_j)|lambda_ineqlambda_j,lambda^*_ineqlambda^*_j,i<j}$
也就是说随便从数据集中拿出两个样本来，那么这两个样本要么在同一类，要么不同类，只有这两种情况。那么在两个模型下，就会产生上面的那四种集合。且a+b+c+d=n*(n-1)/2，即无向完全图边的数目。

Jaccard系数

$J C = b + c a + b + c JC=dfrac{b+c}{a+b+c}$
上述公式是python3.7中实现的公式，表明两个集合的不相似度。

#python=3.7
import scipy.spatial.distance as dist
a=[1,0,1]
#将上述集合转换为布尔集合，相同为1，不同为0
b=[0,1,1]
print(dist.jaccard(a,b))
#结果为0.6666666666666666

FM指数

$F M I = a a + b ⋅ a a + c FMI=sqrt{dfrac{a}{a+b}cdotdfrac{a}{a+c}}$
表示两个集合的相似度
取值[0,1]，越接近1相似度越大

#python=3.7
from sklearn.metrics.cluster import fowlkes_mallows_score
#输入分别为参照模型标签集合和预测模型标签集合
fowlkes_mallows_score([2, 2, 1, 1], [1, 1, 2, 2])#1.0
fowlkes_mallows_score([2, 2, 2, 1], [1, 1, 2, 2])#0.408248290463863

内部指标

直接进行聚类评估，不利用任何参考模型

同样先定义一些函数：

类C内样本间的平均距离： $avg(C)=dfrac{2}{|C|(|C|-1)}sum_{1le i lt j le|C|}dist(x_i,x_j)$
类内最远距离： $diam(C)=max_{1le ilt j le|C|}dist(x_i, x_j)$
两类的最近样本间距离： $d_{min}(C_i, C_j)=min_{x_iin C_i,x_j in C_j }dist(x_i,x_j)$
两类中心点的距离： $d_{cen}(C_i,C_j)=dist(mu_i,mu_j)$

DB指数

$DBI=dfrac{1}{k}sumlimits^k_{i=1}max_{jne i}(dfrac{avg(C_i)+avg(C_j)}{d_{cen}(mu_i,mu_j)})$
当聚类中心未给出时，DB指数可以评估模型聚类的优劣。DB指数反映了类间相似度，所以DBI越接近0，说明聚类效果越好

from sklearn import datasets
from sklearn.cluster import KMeans
from sklearn.metrics import davies_bouldin_score
iris = datasets.load_iris()
X = iris.data
#(150,4) 有四个特征
kmeans = KMeans(n_clusters=3, random_state=1).fit(X)
labels = kmeans.labels_ #(150,)
davies_bouldin_score(X, labels)#0.6619715465007528