前言
说到科研,全科医学的伙伴们估计不少人认为这是三级医院医生或者是专门从事医学研究人员的专属,和自己没有多大关系、或者是很多人是为了职业发展及晋升被迫去开展科研的——感觉科研是个痛苦的过程。
那么科研到底是什么?为什么我们要做科研?能不能快乐的做科研呢?由张勘及沈福来主编的《科学研究的逻辑、方法和工具——科研三部曲》系列作为针对全科医生提升科研能力的教材,这些年来在上海普及培训了超过1000人次的全科医生,整个系列教材化繁就简,案例详实、阅读性强,得到了广大学员的好评。本栏目也将连载原书部分内容以飨伙伴,希望大家能把科研的思维和逻辑带到日常工作中,全科医学是科研的热土,希望能抛砖引玉,启发及开拓大家的思路,也鼓励大家勇于探索、不断总结、优化实践!
祝愿大家快乐的做科研,以科研助推全方位的进步!
三部曲之一——科研逻辑篇
系列7——(如何分析数据)龙骨系列(详看《科学研究的逻辑——思考判断胜于一切》第8章节)
数据都收集到了,如何分析数据呢?要做到洗切拼,逐盘装,不强拆,不浪费,是不是有点像烹小鲜呢。
那么,为何称数据分析是“龙骨”呢?如同上篇的“渔网”一样“龙骨”原本的含义是指:用来支撑造型、固定结构的一种建筑材料,是装修的骨架和基材,用在这里意思是:在研究者使用自己编制的“渔网”,完成了一场“数据打捞”的活动之后进一步地对数据进行“必要而完整”的处理,将数据呈现的所有结果根据内在联系与逻辑,构建成一个立体而完整的架构,以支撑和展示所有的研究成果与产出。在勾勒“龙骨”的过程中,我们对数据的处理要做到有主有次,既不强拆,也不浪费,因为所网来的每条“鱼”最为肥美的,也就那么一个部位,但也不能浪费其他的边角料,每条“鱼”都应得到充分的利用;同时,也不能硬是强拆和强组不合适宜的部分,曲解数据原本的意义,以下详细介绍。
数据分析是一个过程。它是集检查、清洗、转化和模拟数据于一体的研究过程,且该过程中的每一个内容都有先后顺序的排列。
如何进行数据分析
着重说一下对于单项问题或单个变量的分析,一般分为两个步骤,即a)确定变量类型和数据类型,b)选择分析方法。
a) 确定变量类型和数据类型
①按间隙划分,可以把变量分为离散型变量和连续型变量。
②按作用划分,可以把变量分为因变量和自变量。
③根据测量精度的不同,可以把变量由低到高分为定类变量、定序变量、定距变量和定比变量。前两者也称为定性数据或品质数据(Oualitative data),后两者统称为定量数据或数值型数据
b) 选择分析方法
限于篇幅,小编不一一展开,大家可以详细阅读《科学研究的逻辑——思考、判断胜于一切》的第八章,分析方法涉及到很多统计学方面的内容,也是伙伴们最头疼的,小编想说我们不一定要成为统计学专家,但是我们要有思维及逻辑,这样我们能和统计专家去交流,这点作为良好研究者还是很重要的。
又是到了每章节的checklist,小编觉得这个教材特别棒的地方就是checklist,帮助伙伴们拿捏Key Message!
数据分析的核对清单(checklist)
数据分析方法汇总表
|
统计分析目的
|
统计设计类型
|
数据性质-数据水平
独立性正态性方差齐性
|
统计分析方法
|
分析差别或一致性
|
横断面研究设计四格/2×2表
|
定性
|
非参数检验
|
假设检验
|
卡方检验/Fisher精确检验
|
队列研究设计2×2表
|
非参数检验
|
假设检验
|
MH-卡方检验
|
病例-对照研究设计2×2表
|
非参数检验
|
假设检验
|
MH-卡方检验
|
配对研究设计2×2表
|
非参数检验
|
假设检验
|
McNemar卡方检验/Kappa检验(一致性检验)
|
双向(X,Y)无序列联表/R×C表
|
非参数检验
|
假设检验
|
卡方检验/Fisher精确检验
|
结果变量单向(Y)有序R×C表
|
非参数检验
|
假设检验
|
秩和检验
|
双向(X,Y)有序属性不同
|
非参数检验
|
假设检验
|
组间差异:按单向有序列联表处理
|
双向(X,Y)有序属性相同
|
非参数检验
|
假设检验
|
Kappa检验(一致性检验)
|
高维表(定性变量≥3)
|
非参数检验
|
假设检验
|
加权卡方检验/CMH-卡方检验/CMH-校正秩和检验
|
分析相关
|
结果变量单向(Y)有序R×C表
|
|
相关分析
|
卡方检验
|
双向(X,Y)有序属性不同
|
|
相关分析
|
Spearman相关分析或典型相关分析
|
预测控制
|
结果变量单向(Y)有序R×C表
|
|
回归分析
|
有序变量的logistic回归分析
|
双向(X,Y)有序属性不同
|
|
回归分析
|
线性趋势检验
|
单组设计
|
|
回归分析
|
非条件多重logistic回归分析
|
配对设计
|
|
回归分析
|
条件多重logistic回归分析
|
分析差别
|
单组设计-单因素﹠VS标准值
|
定量
|
满足参数检验
|
假设检验
|
t检验
|
不满足参数检验
|
假设检验
|
秩和检验
|
配对设计-单因素﹠自身配对
|
满足参数检验
|
假设检验
|
t检验
|
不满足参数检验
|
假设检验
|
秩和检验
|
成组设计-单因素﹠随机分配
|
满足参数检验
|
假设检验
|
t检验
|
不满足参数检验
|
假设检验
|
秩和检验
|
单因素多水平/完全随机设计
|
满足参数检验
|
假设检验
|
方差分析
|
不满足参数检验
|
假设检验
|
Kruskal-Wallis秩和检验
|
随机区组设计-双因素﹠水平>2﹠无交互
|
满足参数检验
|
假设检验
|
方差分析
|
不满足参数检验
|
假设检验
|
Friedman秩和检验
|
双因素无重复实验设计-双因素﹠4种组合
|
满足参数检验
|
假设检验
|
方差分析
|
不满足参数检验
|
假设检验
|
Friedman秩和检验
|
具有一个重复测量单因素设计
|
满足参数检验
|
假设检验
|
方差分析
|
不满足参数检验
|
假设检验
|
混合效应模型处理
|
析因设计-双因素m﹠水平n≥2﹠全面组合(m*n)﹠有交互
|
满足参数检验
|
假设检验
|
方差分析
|
交叉设计
|
满足参数检验
|
假设检验
|
方差分析
|
拉丁方设计
|
满足参数检验
|
假设检验
|
方差分析
|
正交设计
|
满足参数检验
|
假设检验
|
方差分析
|
具有1-2个重复测量的2-4个因素的实验设计
|
满足参数检验
|
假设检验
|
方差分析
|
分析相关
|
单组设计
|
|
相关分析
|
两个定量指标之间:
简单线性相关分析-Pearson相关分析/Spearman相关分析
|
单组设计
|
|
相关分析
|
多个定量指标之间:
偏相关分析/复相关分析/典型相关分析/多重线性相关分析
|
预测控制
|
单组设计
|
|
回归分析
|
两个定量指标之间:
简单线性回归分析/可直线化曲线回归分析/非线性回归分析/多项式曲线回归分析
|
单组设计
|
|
回归分析
|
多个定量指标之间:
多重线性回归
|
多个定量指标之间的内在关系的统计分析
|
单组设计
|
定量
资料
|
|
多元统计分析
|
主成份分析
探索性因子分析
证实性因子分析
变量聚类分析
对应分析
多维尺度分析
通径分析
结构方程模型分析
|
多个定量指标之间关系的统计分析
|
单因素两水平/多水平设计
|
|
多元统计分析
|
判别分析
|
生存描述
比较两组或多组生存曲线
因果联系
|
生存资料
|
定量与定性资料
|
|
生存描述
成组设计
因果联系
|
生存描述:寿命表法
成组设计:Kaplan-Meier法
因果联系:COX比例危险模型分析法,COX非比例危险模型分析法,参数模型分析法
|
准确度检验;一致性检验
|
诊断试验
|
定量或定性(等级)资料
|
|
诊断与鉴别诊断
|
准确度检验:常见的ROC曲线
一致性检验:绘制Bland-Altman图
|
针对一个定量指标
|
描述性统计分析
|
定量或定性资料
|
|
确定一组定量数据的正常值范围
估计一组定量数据所对应总体平均值(1-α)置信区间
|
购书链接:
科学研究的逻辑、方法和工具