【多元统计分析】19.因子分析十九、因子分析

109 阅读 0 评论 72 点赞

我是靠谱客的博主懵懂金鱼，最近开发中收集的这篇文章主要介绍【多元统计分析】19.因子分析十九、因子分析，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

文章目录

十九、因子分析
- 1.正交因子模型
- 2.如何计算载荷矩阵？
- 3.正交旋转与因子得分
- 回顾总结

十九、因子分析

1.正交因子模型

因子分析也是一种降维的方法，但降维方法与主成分分析不同。主成分分析旨在用变量的线性组合生成同等个数的主成分，然后选择合适的线性组合数量，尽可能保持尽可能多的总体信息；而因子分析旨在根据变量之间的联系，找到共同影响变量的因子，将具有复杂关系的变量转化为少数几个因子从而再现原始变量之间的内在联系，这里的因子是假象的、不可观测的随机变量。一般我们称对变量构建的因子模型为 $R$ 型因子模型。

正交因子模型是这样的模型：

$X=(X_1,cdots,X_p)'$ 是可观测的随机向量， $E (X) = μ, D (X) = Σ$ 。
设 $F=(F_1,cdots,F_m)'(m<p)$ 是不可观测的随机向量， $D}(F)=I_m$ 。
设 $varepsilon=(varepsilon_1,cdots,varepsilon_p)'$ 满足 $C O V (ε, F) = O$ ，且 $diag}(sigma_1^2,cdots,sigma_p^2)=D$ 。

$X=mu+AF+varepsilon,\ Downarrow \ left{ begin{array}l X_1-mu_1=a_{11}F_1+a_{12}F_2+cdots+a_{1m}F_m+varepsilon_1,\ X_2-mu_2=a_{21}F_1+a_{22}F_2+cdots+a_{2m}F_m+varepsilon_2,\ cdots\ X_p-mu_p=a_{p1}F_1+a_{p2}F_2+cdots+a_{pm}F_m+varepsilon_p. end{array} right.$

这个模型将 $p$ 个变量约为 $m$ 个公共因子的线性组合与一个特殊因子的求和，一共有 $m + p$ 个不可观测的随机变量； $A=(a_{ij})_{ptimes m}$ 是待估的系数矩阵，称为因子载荷矩阵，里面的每一个元素 $a_{ij}$ 称为第 $i$ 个变量在第 $j$ 个因子上的载荷。

正交因子模型的关键假定是特殊因子互不相关、特殊因子同公共因子互不相关、公共因子互不相关（正交性），在这种假定下，每一个公共因子至少对两个变量有贡献（载荷不为0），否则将被认定为特殊因子。在这种模型的假定下，有
$\ =&{rm E}[(AF+varepsilon)(AF+varepsilon)'] \ =&{rm E}[AFF'A'+varepsilon AF+AFvarepsilon'+varepsilonvarepsilon']\ =&A{rm E}(FF')A'+{rm E}(varepsilonvarepsilon')\ =&AA'+D, end{aligned}\ Downarrow \ Sigma-D=AA'.$
这样，相当于将总体的方差作分解，分解为相关部分与自有部分。如果 $D$ 中元素比较小，则代表每个变量的特殊因子影响不大，也就是变量主要由公共因子决定、一般地有
$Cov}(X_k,X_j)=sum_{i=1}^ma_{ji}a_{ki}+delta_{k-j}sigma_jsigma_k.$
如果我们计算在 $X = μ + A F + ε$ 模型下，各个变量与因子之间的相关关系，会得到
$C O V (X, F) = C O V (μ + A F + ε, F) = A D (F) = A .$
也就是说， $a_{ij}$ 还刻画了变量 $X_i$ 与因子 $F_j$ 之间的相关性，故称 $a_{ij}$ 是 $X_i$ 在 $F_j$ 上的因子载荷，反映了第 $i$ 个变量在第 $j$ 个公共因子上的相对重要性。如果 $X_i$ 是标准化变量，那么 $a_{ij}$ 还是 $X_i$ 与 $F_j$ 的相关系数。

还有一些指标具有重要的统计意义，如 $A$ 各行的平方和与各列的平方和。

载荷矩阵 $A$ 的第 $i$ 行元素的平方和，记作 $h_i$ ，被称为变量 $X_i$ 的共同度，也就是
$h_i^2=sum_{j=1}^m a_{ij}^2.$
共同度的重要性反应在变量 $X_i$ 的方差上，因为
$D}(X_i)={rm D}(a_{i1}F_1+cdots+a_{im}F_m+varepsilon_i)=sum_{j=1}^ma_{im}^2+sigma_i^2=h_i^2+sigma_i^2,$
这表明变量 $X_i$ 的方差可以分解为两部分，一是公因子方差 $h_i^2$ 也就是共同度，二是剩余方差 $sigma^2$ ，即特殊因子的方差。公因子方差越大，变量就越依赖于公因子 $F$ 。

载荷矩阵 $A$ 的第 $j$ 列元素的平方和，记作 $q_j^2$ ，表示第 $j$ 个公共因子对整个变量 $X$ 的贡献程度，即
$q_j^2=sum_{i=1}^pa_{ij}^2.$
如果因子的贡献程度 $q_j^2$ 越大，就说明其影响力越大。

2.如何计算载荷矩阵？

现在讨论 $A$ 的计算问题。在实际生活中，如果不知道 $Σ$ 的实际值，就用样本协方差阵 $S$ 来估计，由于 $Σ$ 和 $S$ 都是对称矩阵，具有 $p$ 个实特征根 $lambda_1gelambda_2ge cdotslambda_p$ 以及对应的 $p$ 个单位正交向量 $l_1,cdots,l_p$ ，所以有如下的谱分解式：
$S=(s_{ij})_{ptimes p}=sum_{i=1}^plambda_il_il_i'.$
由此，如果前面 $m$ 个特征值已经足够大（如权重和超过0.7），就可以忽略后面的 $p - m$ 个特征值，只保留前面 $m$ 个特征值的加权部分：
$sum_{i=1}^mlambda_il_il_i'=(sqrt{lambda_1}l_1,cdots,sqrt{lambda_m}l_m)begin{pmatrix} sqrt{lambda_1}l_1' \ vdots \ sqrt{lambda_m}l_m' end{pmatrix}xlongequal{def}AA'.$
也就是 $A=(sqrt{lambda_1}l_1,cdots,sqrt{lambda_m}l_m)xlongequal{def}(a_{ij})_{ptimes m}$ ，而剩余部分，我们全部归于对角线元素上，也就是
$diag}(sigma^2_1,cdots,sigma^2_p),quadsigma_i^2=s_{ii}-sum_{t=1}^m a_{it}^2.$
这样，我们依然保留了 $D}(X_i)=h_i^2+sigma_i^2$ 的性质，由此给出的载荷矩阵 $A$ 和 $D$ 被称为因子模型的主成分解，这是因为 $A$ 第 $j$ 列恰好和 $X$ 的第 $j$ 个主成分相差了一个常数倍（主成分就是单位特征向量）。不过，主成分解只能保证 $S \approx A A^{'} + D$ ，存在一个误差矩阵 $varepsilon=S-(AA'+D)xlongequal{def}(varepsilon_{ij})_{ptimes p}$ 。

主因子解是对主成分解的一种修正，它从相关阵 $R$ 出发，并且需要知道特殊方差的初始估计 $sigma_i^*)^2$ ，此时 $diag}(hatsigma_1^2,cdots,hatsigma_p^2)$ ，就有
${def}R^*=begin{bmatrix} 1-(hatsigma_1)^2 & r_{12} & cdots & r_{1p} \ r_{21} & 1-(hatsigma_2)^2 & cdots & r_{2p} \ vdots & vdots & & vdots \ r_{p1} & r_{p2} & cdots & 1-(hatsigma_p)^2 end{bmatrix}.$
这时候由于 $R^*$ 已知，也可以进行谱分解，取前 $m$ 个特征值近似构成 $A=(sqrt{lambda_1}l_1,cdots,sqrt{lambda_m}l_m)$ 即可，这时的 $A, D$ 就称为主因子解。

综上所述，应用主成分估计法的步骤如下：

由样本数据阵计算样本均值 $\overset{ˉ}{X}$ 、离差阵 $E$ 、相关阵 $R$ 。
求 $R$ 的特征值 $lambda_1gelambda_2ge cdotsgelambda_p$ 和对应单位正交特征向量 $l_1,cdots,l_p$ ，确定公因子个数 $m$ ，如满足条件
$frac{lambda_1+cdots+lambda_m}{lambda_1+cdots+lambda_p}=frac{lambda_1+cdots+lambda_m}{p}ge p_0xlongequal{def}0.8.$
令 $a_i=sqrt{lambda_i}l_i$ ，得到因子载荷矩阵为 $A=(a_1,cdots,a_m)$ 。
求特殊因子方差为 $hatsigma_i^2=1-sum_{t=1}^m a_{it}^2$ ，得到对角阵 $diag}(hatsigma_1^2,cdots,hatsigma_p^2)$ ，以及 $X_i$ 的共同度为 $h_i^2=sum_{t=1}^m a_{it}^2$ 。
对潜因子 $F$ 做解释，此时 $X = μ + A F + ε$ 。

3.正交旋转与因子得分

实际生活中，我们往往希望潜因子具有一定的解释能力，如果每个因子具有类似的效果，就不知道哪个因子对哪个变量的影响比较大。在第一节中，我们定义了载荷矩阵的第 $j$ 列平方和 $q_j^2$ ，称这是公共因子对变量 $X_j$ 的解释能力，如果 $q_j^2$ 趋近于1或者趋近于0，就说明公共因子对这个变量有明显贡献或者不明显贡献。我们的目标，就是找到一个使得每个 $q_j^2$ 都尽可能大或尽可能小的载荷矩阵 $A$ 。

为什么我们有这样的选择权呢？考虑因子模型 $X = μ + A F + ε$ ，由于 $D (X) = Σ = A A^{'} + D$ ，结合正交矩阵 $Γ Γ^{'} = I$ 的特点，设 $C = A Γ$ ，则 $Σ = A A^{'} + D = A Γ (Γ^{'} A^{'}) + D = C C^{'} + D$ ，这样 $C$ 也可以作为因子载荷矩阵，也就是
$X = μ + A Γ (Γ^{'} F) + ε .$
新的因子就是 $(Γ^{'} F)$ 。由于施加正交变换相当于作一次旋转（或镜像），所以我们也称这样的变换载荷矩阵的方法为因子轴的正交旋转。

定义因子载荷矩阵的方差为
$V=frac1{p^2}left{sum_{j=1}^mleft[psum_{i=1}^pfrac{a_{ij}^4}{h_j^4}-left(sum_{t=1}^pfrac{a_{tj}^2}{h_t^2} right)^2 right] right},$
如果 $V$ 越大，则因子就越具有简化结构。在实际应用中，我们选择二维的旋转矩阵
$\ sin varphi & cos varphi end{bmatrix},$
对于双因子总体，其因子载荷矩阵是 $A_{ptimes 2}$ ，施加变换得到 $B_{ptimes 2}=AGamma$ ，可以计算此时的 $V$ ，并对 $φ$ 求导就可以得到最合适的旋转矩阵 $Γ$ 。对于 $m$ 因子模型，每一次选择两个因子进行 $Γ$ 旋转即可，每轮一共旋转 $C_{m}^2$ 次，并且需要经过多轮旋转直到 $V$ 不再增大。

因子得分，是将公共因子表示成变量的线性组合，或者对每一个样品计算公共因子的估计值。有以下几种因子得分：

巴特莱特因子得分： $F=(A'D^{-1}A)^{-1}A'D^{-1}X$ 。
使用主成分法估计时的因子得分： $F=(A'A)^{-1}A'X$ 。
汤普森因子得分： $F=A'R^{-1}X$ ，或 $F=A'(AA'+D)^{-1}X$ 。

这里巴特莱特因子得分是无偏的，汤普森因子得分是有偏的，但是汤普森因子得分有较小的平均预报误差。

回顾总结

因子分析中的因子是不可观测的、假象的随机变量，与随机变量的线性组合——主成分不同。
正交因子模型是 $X = μ + A F + ε$ ，且满足 $D}(F)=I_m,{rm COV}(X,F)=0$ 。这里的 $A$ 称为因子载荷矩阵，满足 $Σ = A A^{'} + D$ 。
共同度是 $A$ 的第 $i$ 行平方和，代表第 $i$ 个随机变量的公因子方差，剩余部分为剩余方差，即 $D$ 第 $i$ 个元素。
常用的求解 $A, D$ 的方法有主成分法、主因子法。我们将数据标准化后，从相关矩阵 $R$ 出发，得到 $R$ 的特征值与单位正交特征向量，确定合适的特征值数，得到 $A=(sqrt{lambda_1}l_1,cdots,sqrt{lambda_m}l_m)$ ，再计算剩余方差 $hatsigma_i^2=1-h_i^2$ 。
我们会希望得到的因子模型有较强的解释能力，所以对因子进行正交变换，得到 $Γ^{'} F$ ，以使得载荷矩阵方差最大化。