主成分分析与医学应用
在社会经济各方面的问题的研究中,问题的解决常常牵涉到许多层面和变量因素,各因素间 往往会存在一定的相关关系。变量因素太多,无疑会增加分析问题的难度和复杂性,因此,我们很容易联想到在相关关系分析的基础上,用尽可能少的新变量来拟合 代替原来较多的变量,而尽可能多的保留原来变量所反映的信息,这就是主成分分析方法。
主成分分析方法反映了一种降维处理和分析的思维方法,在解决各种复杂问题时往往能起到 意想不到的作用。在这里,我着重想要体现主成分分析在医学研究中的应用。一方面是因为医学与人类的健康密切相关,医学的发展关系到人类最根本的福祉;另一 方面是因为医学具备巨大的实践价值,医学的研究成果可以发展生产力从而带动国民经济的发展。近年来,由于统计学的发展和各种技术的进步,对数据进行各种定 量分析已被广泛应用于医学研究中。主成分分析方法也被广泛使用。
在这里我选择了一个案例来说明主成分分析在医学研究中的作用。分析的数据来自《中国主要年份儿童保健情况统计(1996~2007)》。
年份
|
出生体重小于两千五百克比重 %
|
围产儿死亡率‰
|
新生儿破伤风发病率(1/万)
|
新生儿破伤风死亡率(1/万)
|
五岁以下儿童中重度营养不良比重%
|
新生儿访视率 %
|
三岁以下儿童系统管理率 %
|
七岁以下儿童保健管理率
%
|
1,996
|
|
14.44
|
4.12
|
2.90
|
3.73
|
81.40
|
61.41
|
62.70
|
1,997
|
2.31
|
15.14
|
4.16
|
2.97
|
3.51
|
82.38
|
65.65
|
65.83
|
1,998
|
2.58
|
14.94
|
2.74
|
1.86
|
3.41
|
83.74
|
69.07
|
68.89
|
1,999
|
2.39
|
14.22
|
2.24
|
1.48
|
3.29
|
85.42
|
72.34
|
71.77
|
2,000
|
2.40
|
13.99
|
1.88
|
1.16
|
3.09
|
85.80
|
73.84
|
73.37
|
2,001
|
2.35
|
13.28
|
1.41
|
0.84
|
3.01
|
86.27
|
74.65
|
74.47
|
2,002
|
2.39
|
12.47
|
1.33
|
0.73
|
2.83
|
86.12
|
73.88
|
74.03
|
2,003
|
2.26
|
12.24
|
1.40
|
0.83
|
2.70
|
84.65
|
72.77
|
72.68
|
2,004
|
2.20
|
11.08
|
0.98
|
0.51
|
2.56
|
84.96
|
73.73
|
74.44
|
2,005
|
2.21
|
10.27
|
0.77
|
0.39
|
2.34
|
85.03
|
73.88
|
74.79
|
2,006
|
2.22
|
9.68
|
0.64
|
0.32
|
2.10
|
84.70
|
73.90
|
75.00
|
2,007
|
2.26
|
8.71
|
0.47
|
0.20
|
2.02
|
85.59
|
74.39
|
75.89
|
中国主要年份儿童保健情况统计(1996~2777)
本例中有9个变量,分别是年份、出生体重小于两千五百克比重、围产儿童死亡率、新生儿破伤风发病率、新生儿破伤风死亡率、五岁以下儿童中重度营养不良比重、新生儿访视率、三岁以下儿童系统管理率、七岁以下儿童保健管理率。然后按下列步骤计算(利用SPSS软件):
(1)、计算相关系数矩阵:我利用SPSS软件求得了除年份以外的另外八个变量之间的相关系数矩阵,结果如下表,从表中可以看出,各变量之间具有一定的相关关系而且有些相关系数还比较大,接近于1,所以本例很适合使用主成分分析。
相关矩阵
|
|
出生体重小于两千五百克比重
|
围产儿死亡率
|
新生儿破伤风发病率
|
新生儿破伤风死亡率
|
五岁以下儿童中重度营养不良比重
|
新生儿访视率
|
三岁以下儿童系统管理率
|
七岁以下儿童保健管理率
|
出生体重小于两千五百克比重
|
1.000
|
.331
|
-.064
|
-.075
|
.142
|
.439
|
.355
|
.234
|
围产儿死亡率
|
.331
|
1.000
|
.848
|
.833
|
.970
|
-.429
|
-.607
|
-.730
|
新生儿破伤风发病率
|
-.064
|
.848
|
1.000
|
.999
|
.918
|
-.807
|
-.918
|
-.966
|
新生儿破伤风死亡率
|
-.075
|
.833
|
.999
|
1.000
|
.905
|
-.820
|
-.924
|
-.968
|
五岁以下儿童中重度营养不良比重
|
.142
|
.970
|
.918
|
.905
|
1.000
|
-.563
|
-.748
|
-.842
|
新生儿访视率
|
.439
|
-.429
|
-.807
|
-.820
|
-.563
|
1.000
|
.950
|
.910
|
三岁以下儿童系统管理率
|
.355
|
-.607
|
-.918
|
-.924
|
-.748
|
.950
|
1.000
|
.985
|
七岁以下儿童保健管理率
|
.234
|
-.730
|
-.966
|
-.968
|
-.842
|
.910
|
.985
|
1.000
|
解释的总方差
|
成份
|
初始特征值
|
提取平方和载入
|
合计
|
方差的 %
|
累积 %
|
合计
|
方差的 %
|
累积 %
|
1
|
6.084
|
76.052
|
76.052
|
6.084
|
76.052
|
76.052
|
2
|
1.581
|
19.758
|
95.810
|
1.581
|
19.758
|
95.810
|
3
|
.265
|
3.310
|
99.120
|
|
|
|
4
|
.039
|
.483
|
99.603
|
|
|
|
5
|
.028
|
.355
|
99.958
|
|
|
|
6
|
.003
|
.034
|
99.992
|
|
|
|
7
|
.001
|
.007
|
99.998
|
|
|
|
8
|
.000
|
.002
|
100.000
|
|
|
|
提取方法:主成份分析。
|
由表可知,只有前两个变量因素的特征值大于1,因此选择前两个作为主成分,第一主成分的方差贡献率是76.052%,前两个主成分的方差占所有成分方差的95.810%,由此可见,前两个主成分已足够代替原来的变量,几乎涵盖原变量的全部信息。
(3)计算主成分载荷,得到以下的成分矩阵:
成份矩阵a
|
|
成份
|
F 1
|
F 2
|
出生体重小于两千五百克比重
|
-.134
|
.932
|
围产儿死亡率
|
.820
|
.537
|
新生儿破伤风发病率
|
.992
|
.074
|
新生儿破伤风死亡率
|
.991
|
.056
|
五岁以下儿童中重度营养不良比重
|
.906
|
.357
|
新生儿访视率
|
-.853
|
.439
|
三岁以下儿童系统管理率
|
-.951
|
.280
|
七岁以下儿童保健管理率
|
-.988
|
.129
|
提取方法 :主成份。
|
a. 已提取了 2 个成份。
|
从中可以得到两主成分的表达式,即:
F1 = -0.134*出生体重小于两千五百克比重+0.820*围产儿死亡率+0.992*新生儿破伤风发病率+0.991*新生儿破伤风死亡率+0.906* 五岁以下儿童中重度营养不良比重-0.853*新生儿访视率-0.951*三岁以下儿童系统管理率-0.988*七岁以下儿童保健管理率
同理可得F2的表达式。
(4)得出结论:在第一主成分中,除了出生体重小于两千五百克比重以外的变量的系数都比较大;在第二主成分中变量出生体重小于两千五百克比重的系数比较大,可以看做是反映变量出生体重小于两千五百克比重的指标。
这样,我们就用这两个主成分概括了所有的指标,描述了中国主要年份儿童的保健情况。
从该案例中可以看出主成分分析具有化繁为简,简明清晰的优点,用最少的成分概括了原来纷杂的变量之间的联系。该统计分析法不失为解决实际应用问题的一个有力工具。
|