第3章 对应分析 第1节 方法的概述 主成分分析、因子分析、变量聚类分析都是研究变量之间的相互关系。有时,在某些实际问题中,既要研究变量之间的关系、还要研究样品之间的关系。不仅如此,人们往往还希望能在同一个直角坐标系内同时表达出变量与样品两者之间的相互关系。实现这一目的的方法,称为对应分析(Corres pondence Analy s is )。 对应分析,也称相应分析,它是列联表资料的加权主成分分析,用它去寻求列联表的行列变量之间联系的低维图示法。此方法的关键是利用一种数据变换方法,使含有 n 个样品 m 个变量的原始数据矩阵 变成另一个矩阵 ,并使 R=Z'Z(分析变量之间关系的协方差矩阵)与 Q=ZZ'(分析样品之间关系的协方差矩阵)具有相同的非零特征根,它们相应的特征向量之间也有密切的关系。对协方差矩阵 R、Q 进行加权主成分分析或因子分析,分别能提取两个最重要的公因子 R1、R2与 Q1、Q2。由于采取的是一种特殊变换方法,公因子 R1与 Q1在本质上是相同的,同理,R2与 Q2在本质上也是相同的,故可用 dim1作为 R1、Q1的统一标志;用 dim2作为 R2、Q2的统一标志,于是可将(R1,Q1)和(R2,Q2)两组数据点在由(dim1,dim2)组成的同一个直角坐标系中。这样,便于考察变量与样品之间的相互关系。 第2节 对应分析中的变量变换方法 设原始数据矩阵 X=(x ij)nm,i=1,2,…,n(n 为样品数);j=1,2,…,m(m 为变量数)。又设 x i.为第i 行的合计、x .j 为第j 列的合计、x ..为全部数据的合计,则变量变换的公式为: (6.3.1) 由此变换产生出矩阵Z,即 。分别对R=Z'Z 与Q=ZZ'进行加权主成分分析或因子分析,就实现了对应分析。 从这种变换可以看出:原始数据x ij 并非一定是频数,也可以是正实数。这说明对应分析可以处理R×C 列联表资料,也可处理适合作主成分分析、因子分析、聚类分析的资料。 第3节 用 CORRESP 过程实现对应分析 [例6.3.1] 我们知道:疾病与人的基因型密切有关,而不同民族各种基因出现的频率不尽相同。下面是某研究者收集到的资料,试分析各种基因频率与民族之间的关系。各民族下面的小数是44种基因出现的频率。 基因型 藏族(Z) 尼泊尔(N) 印度(Y) 汉族(H) 基因型 藏族(Z) 尼泊尔(N) 印度(Y) 汉族(H) A1 0.0308 0.0180 0.1190 0.0149 B38 0.0465 0.0470 0.0030 0.0015 A2 0.3333 0.1070 0.1480 0.3492 B39 0.0102 0.0000 0.0090...