UA MATH571B 2K析因设计 SAS实践分数2k析因设计试验数据的定性分析试验数据的定量分析

209 阅读 0 评论 138 点赞

我是靠谱客的博主唠叨美女，这篇文章主要介绍UA MATH571B 2K析因设计 SAS实践分数2k析因设计试验数据的定性分析试验数据的定量分析，现在分享给大家，希望可以做个参考。

UA MATH571B 2K析因设计 SAS实践分数2k析因设计

试验数据的定性分析
试验数据的定量分析

这是2016年五月QE第三题。这道题的背景是1988年发在Journal of quality Technology的paper，Journal of quality Technology是制造业质控技术领域的小top期刊。这篇文章要研究的就是最后这个词组：filling variability。相信大家都买过即食汤包，比如紫菜汤包、番茄蛋花汤包等，开水泡一下就可以喝，非常方便；虽然对使用者很方便，制造商却面临一个很大的问题：出于质控的目标，制造商希望每袋汤包灌装之后重量几乎是一样的，但事实上每一袋的重量都不一样。称灌装的汤包重量的差异程度叫做filling variation，质检合格的要求就是把filling variation控制在一定范围内。这篇paper就在试图用一个案例回答filling variability由什么决定这个问题。在预实验步骤，作者选择了五个制作灌装材料阶段的factor，分别是搅拌的时候加几次油、工作温度、搅拌时间、批次重量、搅拌与灌装间隔时间，被解释变量是灌装汤包重量的标准差，通过析因设计判断每个因子的重要性。

在这里插入图片描述

试验数据的定性分析

我们先定性分析一下试验数据，确定之后定量分析的思路与方法。第一列数据告诉我们试验单位是16个，因为一共五个factor，每个factor取两个level来做的试验，如果是 $2^5$ 设计，就应该有32个试验结果，但现在只有16，说明这是一个fractional factorial design，更准确一点，是一个 $2^{5-1}$ Design。

下面分析这个试验的Defining relation是什么。最简单的方法是我们任取一行，比如取第7行，然后用第七行的 $A$ 到 $E$ 这五个factor的值，用乘法/取相反数这两种运算凑1，很明显全部相乘再取相反数就是1，因此Defining relation是
$I = - A B C D E$

基于这个Defining relation，所有的一阶效应会与对应的四阶交互效应互为alias（比如A和-BCDE）；所有的二阶交互效应效应会与对应的三阶交互效应互为alias（比如AB和-CDE）；因此所有的单个因子的效应或两个因子的交互效应不会与单个因子的效应或两个因子的交互效应互为alias，这是一个resolution V设计，或记为 $2^{5-1}_{V}$ 。（相关理论参考UA MATH571B 试验设计 2k析因设计理论下）

现在我们确定了这是一个unreplicated $2^{5-1}_{V}$ 设计，接下来的分析思路就是估计因子效应，辅助正态概率图判断显著的因子，排除掉不显著的因子，简化模型，再对简化后的模型做统计分析。

试验数据的定量分析

首先读取数据

data soup;
infile 'D:Stat PhDtaking coursesummer1Method2016Maysoup.csv' delimiter=',' firstobs=2;
input A B C D E y;
run;

proc print data = soup; run; /*查看输入的数据是否正确*/

因为是csv文件，所以用逗号分隔。下面的代码是用来计算因子效应的，基本思想是计算用上面的16种factor做回归的系数乘2：

data effect0;          
set soup;
AE = A*E; BE = B*E; AB = A*B; CE = C*E; AC = A*C;
BC = B*C; ABCE = AB*CE; DE = D*E; AD = A*D; BD = B*D;
ABD = AB*D; CD = C*D; ACDE = AC*DE; BCDE = BC*DE; ABCD = AB*CD;
run;

proc reg outest=effect1 data = effect0;
model y = A B C D E AE BE AB CE AC BC ABCE DE AD BD ABD CD ACDE BCDE ABCD; run;

data effect2;
set effect1;
drop y intercept _RMSE_; run;

proc transpose data = effect2 out = effect3; run;

data effect4; 
set effect3; 
effect = col1*2; run;

proc sort data = effect4; by effect; run;

proc transpose data = effect4 out = effect40; run;

data effect5; 
set effect4;
where _NAME_ ^= 'block'; run;

proc print data = effect5; run;

它输出的结果如下，显然效应比较大的是E、BE、DE，并且是负效应，说明搅拌时间与灌装时间间隔越久，灌装误差就会越小。其实也不难理解，隔得越久水就蒸发得越干，剩下的风味物质中差一两片干紫菜总比差一两片湿紫菜的误差小。
在这里插入图片描述
下面画出正态概率图double check一下，

proc rank data = effect5 normal = blom; 
var effect; 
ranks neff; 
symbol1 v = circle;

proc gplot; plot effect*neff = _NAME_; run;

在这里插入图片描述
显然左下方这三个点是偏离集中区域的，因此可以确定E、BE、DE的效应是显著的。因为BE、DE中也包含B、D这两个因素，为了避免漏掉可能的显著因子，我们分析B、D、E，BE、DE这五个因素。

proc reg outest = reg0 data = effect0;
model y = B D E BD BE; run;

title"normality checking";
proc univariate data=partg normal;
var res;
qqplot res/normal(mu=est sigma=est color=red L=1);
run;