概述
主成分分析和因子分析
- 主成分分析
- 问题的提出
- 简单的例子
- 因子分析
主成分分析
它能将多个指标转换为少数几个主成分,这些主成分是原始变量的线性组合,且彼此之间互不相关,其能反映出原始数据的大部分信息。一般来说,当研究的问题涉及到多变量且变量之间存在很强的相关性时,我们可考虑使用主成分分析的方法来对数据进行简化
问题的提出
对于问题的研究,多变量问题是经常遇到的,变量太多,无疑会增加问题分析的难度和复杂度
用比较少的变量代替原来较多的旧变量,且使得这些比较少的新变量尽可能多保留原来变量反应的信息,把多个变量划为少数几个综合指标的一种统计分析方法。
去除噪声和不重要的特征,从而首先提升数据处理速度。
简单的例子
做一件衣服需要测量的指标,是否需要归一化,就可以知道对应分数所在的权值
思路就是把数用矩阵的线性组合表示
这个时候就需要求解系数
eig(R) %计算特征值和特征向量
1.标准化矩阵,计算协方差即:直接计算相关系数矩阵。
2.先计算特征值和特征向量,然后就可以计算累计贡献率,单个特征值在整体中的占比。
进行排序取出贡献了比较高的特征值。
3.根据系数分析主成分代表的意义
4.利用主成分分析的结果进行后续的分析。
结题步骤
- 计算关键变量,特征值,特征向量,贡献率
- 计算相关系数矩阵,就是两个变量之间的关系
- 过后就可以得到特征值,对应每个都有一个特征向量
- matlab中默认采用了归一化处理
- 从而利用特征值计算贡献率
- 这里注意一个问题!不能用来做评价类问题
- 再看累加贡献率达到90%或者80%最后就可以得到一个结果。
系数可以介绍为载荷
则在衣服设计的过程中需要考虑的因素有身体大小,胖瘦,臂长
主成分的解释含义多少带一点模糊性,不像原始变量的含义那么清楚,确切
变量降维过程中付出的代价
主成分分析的困难之处主要在于能够给出主成分的较好解释,所以提取的主成分中如果有一个主成分解释不了,整个主成分分析也就失败了
主成分分析是变量降维的一种重要,常见的方法,简单来说,该方法要应用成功,一是靠原始变量选取合理,二是靠运气。
分析的一种思路
对所有变量上有几乎一样的正载荷,可以称作整体竞赛水平的强弱。
[n.p]=size(x) %样本个数和标准化后的结果
x=zscore(X) %计算样本的协方差矩阵
R=corrcoef(X)%计算相关系数矩阵
[V,D]=eig(R);%计算特征向量矩阵
适合对数据本身相关性强的进行降维操作。
主成分分析使用,主成分得分(不科学应用)
主成分分析会损失数据
指标可能有多种类型,不能直接计算
真正的应用–用于聚类,
用第一主成分和第二主成分进行聚类分析。
同样也可以得到比较好的结果
在原来数据比较高维的情况。
可以可视化最后聚类的效果,需要用在指标之间存在很强的相关性的时候才可以应用
因为使用毕竟会损失数据。
主成分分析解决多重共线性的方法。
因子分析
因子分析法通过研究变量间的相关系数矩阵,把这些变量间错综复杂的关系归结成少数几个综合因子,由于归结出的因子个数少于原始变量的个数,但是它们又包含原始变量的信息,所以,这一分析过程也称为降维。由于因子往往比主成分更易得到解释,故因子分析比主成分分析更容易成功,从而有更广泛的应用。
最后
以上就是文静世界为你收集整理的14.主成分分析和因子分析主成分分析因子分析的全部内容,希望文章能够帮你解决14.主成分分析和因子分析主成分分析因子分析所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复