专题学习——主成分分析与医学应用

8/22/2018

小全编辑

全科之窗|ABC平台

1250

8/22/2018 12:00:00 AM

主成分分析与医学应用
 
    在社会经济各方面的问题的研究中,问题的解决常常牵涉到许多层面和变量因素,各因素间 往往会存在一定的相关关系。变量因素太多,无疑会增加分析问题的难度和复杂性,因此,我们很容易联想到在相关关系分析的基础上,用尽可能少的新变量来拟合 代替原来较多的变量,而尽可能多的保留原来变量所反映的信息,这就是主成分分析方法。
    主成分分析方法反映了一种降维处理和分析的思维方法,在解决各种复杂问题时往往能起到 意想不到的作用。在这里,我着重想要体现主成分分析在医学研究中的应用。一方面是因为医学与人类的健康密切相关,医学的发展关系到人类最根本的福祉;另一 方面是因为医学具备巨大的实践价值,医学的研究成果可以发展生产力从而带动国民经济的发展。近年来,由于统计学的发展和各种技术的进步,对数据进行各种定 量分析已被广泛应用于医学研究中。主成分分析方法也被广泛使用。
    在这里我选择了一个案例来说明主成分分析在医学研究中的作用。分析的数据来自《中国主要年份儿童保健情况统计(1996~2007)》。
年份
出生体重小于两千五百克比重 %
围产儿死亡率‰
新生儿破伤风发病率(1/万)
新生儿破伤风死亡率(1/万)
五岁以下儿童中重度营养不良比重%
新生儿访视率   %
三岁以下儿童系统管理率 %
七岁以下儿童保健管理率
%
1,996
 
14.44
4.12
2.90
3.73
81.40
61.41
62.70
1,997
2.31
15.14
4.16
2.97
3.51
82.38
65.65
65.83
1,998
2.58
14.94
2.74
1.86
3.41
83.74
69.07
68.89
1,999
2.39
14.22
2.24
1.48
3.29
85.42
72.34
71.77
2,000
2.40
13.99
1.88
1.16
3.09
85.80
73.84
73.37
2,001
2.35
13.28
1.41
0.84
3.01
86.27
74.65
74.47
2,002
2.39
12.47
1.33
0.73
2.83
86.12
73.88
74.03
2,003
2.26
12.24
1.40
0.83
2.70
84.65
72.77
72.68
2,004
2.20
11.08
0.98
0.51
2.56
84.96
73.73
74.44
2,005
2.21
10.27
0.77
0.39
2.34
85.03
73.88
74.79
2,006
2.22
9.68
0.64
0.32
2.10
84.70
73.90
75.00
2,007
2.26
8.71
0.47
0.20
2.02
85.59
74.39
75.89
 

















中国主要年份儿童保健情况统计(1996~2777

本例中有9个变量,分别是年份、出生体重小于两千五百克比重、围产儿童死亡率、新生儿破伤风发病率、新生儿破伤风死亡率、五岁以下儿童中重度营养不良比重、新生儿访视率、三岁以下儿童系统管理率、七岁以下儿童保健管理率。然后按下列步骤计算(利用SPSS软件):
(1)、计算相关系数矩阵:我利用SPSS软件求得了除年份以外的另外八个变量之间的相关系数矩阵,结果如下表,从表中可以看出,各变量之间具有一定的相关关系而且有些相关系数还比较大,接近于1,所以本例很适合使用主成分分析。
相关矩阵
 
出生体重小于两千五百克比重
围产儿死亡率
新生儿破伤风发病率
新生儿破伤风死亡率
五岁以下儿童中重度营养不良比重
新生儿访视率
三岁以下儿童系统管理率
七岁以下儿童保健管理率
出生体重小于两千五百克比重
1.000
.331
-.064
-.075
.142
.439
.355
.234
围产儿死亡率
.331
1.000
.848
.833
.970
-.429
-.607
-.730
新生儿破伤风发病率
-.064
.848
1.000
.999
.918
-.807
-.918
-.966
新生儿破伤风死亡率
-.075
.833
.999
1.000
.905
-.820
-.924
-.968
五岁以下儿童中重度营养不良比重
.142
.970
.918
.905
1.000
-.563
-.748
-.842
新生儿访视率
.439
-.429
-.807
-.820
-.563
1.000
.950
.910
三岁以下儿童系统管理率
.355
-.607
-.918
-.924
-.748
.950
1.000
.985
七岁以下儿童保健管理率
.234
-.730
-.966
-.968
-.842
.910
.985
1.000




 
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的 %
累积 %
合计
方差的 %
累积 %
1
6.084
76.052
76.052
6.084
76.052
76.052
2
1.581
19.758
95.810
1.581
19.758
95.810
3
.265
3.310
99.120
 
 
 
4
.039
.483
99.603
 
 
 
5
.028
.355
99.958
 
 
 
6
.003
.034
99.992
 
 
 
7
.001
.007
99.998
 
 
 
8
.000
.002
100.000
 
 
 
提取方法:主成份分析。
 
    由表可知,只有前两个变量因素的特征值大于1,因此选择前两个作为主成分,第一主成分的方差贡献率是76.052%,前两个主成分的方差占所有成分方差的95.810%,由此可见,前两个主成分已足够代替原来的变量,几乎涵盖原变量的全部信息。
 
(3)计算主成分载荷,得到以下的成分矩阵:
 
 
成份矩阵a
 
成份
1
2
出生体重小于两千五百克比重
-.134
.932
围产儿死亡率
.820
.537
新生儿破伤风发病率
.992
.074
新生儿破伤风死亡率
.991
.056
五岁以下儿童中重度营养不良比重
.906
.357
新生儿访视率
-.853
.439
三岁以下儿童系统管理率
-.951
.280
七岁以下儿童保健管理率
-.988
.129
提取方法 :主成份。
a. 已提取了 2 个成份。
 
 
从中可以得到两主成分的表达式,即:
F1 = -0.134*出生体重小于两千五百克比重+0.820*围产儿死亡率+0.992*新生儿破伤风发病率+0.991*新生儿破伤风死亡率+0.906* 五岁以下儿童中重度营养不良比重-0.853*新生儿访视率-0.951*三岁以下儿童系统管理率-0.988*七岁以下儿童保健管理率
同理可得F2的表达式。
 
(4)得出结论:在第一主成分中,除了出生体重小于两千五百克比重以外的变量的系数都比较大;在第二主成分中变量出生体重小于两千五百克比重的系数比较大,可以看做是反映变量出生体重小于两千五百克比重的指标。
这样,我们就用这两个主成分概括了所有的指标,描述了中国主要年份儿童的保健情况。
 
    从该案例中可以看出主成分分析具有化繁为简,简明清晰的优点,用最少的成分概括了原来纷杂的变量之间的联系。该统计分析法不失为解决实际应用问题的一个有力工具。


 

版权所有 ©2018 智医创工具 All Rights Reserved. 沪ICP备12048712号-4