t-SNE和PCA进行数据降维和聚类的比较
t-SNE(t-distributed stochastic neighbor embedding)是一种非线性的数据降维方法,它将数据点之间的空间距离转化为相似度的概率分布(高维空间中使用高斯分布,低维空间中使用t-分布),通过最小化高维空间和低维空间概率分布的KL散度,获得数据在低维空间中的近似。可以看到经t-SNE降维后的数据,实现非常好的分离。PCA(主成分分析)通过对原始数据特征的线性组合,在尽可能保留样本之间差异性(样本方差)的情况下,形成新的特征,是最常见的数据降维手段。