


单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,医学论文中的常见统计学错误,中国疾病预防控制中心,金水高,正确的统计学方法必须贯穿于从课题的统计设计到论文撰写的全过程不管是实验室研究、临床研究还是现场调查,其数据的归纳整理,都要列成一定的标准格式,以便于进行计算机的录入及统计分析其基本要求为:,1.横为记录,纵为变量,2.对每个变量要起合适的变量名,3.对分类变量中用字符表示的取值在进行计算机录入时必须按照一定的规矩将其转换为数值序号,性别,年龄,职业,治疗,分组,收缩压(mmHg),舒张压(mmHg),心电图,疗效,001,男,23,工人,A,156,120,有效,002,男,32,农民,B,132,89,显效,表1高血压患者治疗周后的效果,序号,ID,性别,年龄,民族,婚姻状况,当前吸烟状况,吸烟量(支/日),001,1101,男,23,汉,未婚,00,1102,男,32,汉,已婚,吸,12,表2人,群危险因素调查的数据格式,从统计学的角度,我们并不关心数据是来自临床还是实验室还是现场,我们首先关心的是:,数据中那些属于研究者所关心的“产出”?即所谓的因变量反应变量?这些往往是研究者的研究设计假设中的产出。
这些数据的属性:是定性还是定量资料确定了所关心的研究产出后,其它的变量就都可以解释为是这类变量的属性研究者要做的工作是:,分析这些产出的基本情况,研究这些属性是否对于他所关心的产出存在关联,或叫有影响这就是统计的几件基本工作:,定水平,作比较,找关系一、计数资,料分析中的常见错误举例,率与构成比,某研究想了解筛查与自查相比发现的肝癌病例分期是否存在差异,是否筛查更能发现早期肝癌病人一、计数资,料分析中的常见错误举例,率与构成比(续),一、计数资,料分析中的错误举例,2.样本量/,阳性例数较少时的统计分析,某地区乙肝表面抗原阳性率,5.04,178,3531,合计,5.85,85,1453,15-,4.82,60,1245,10-,4.20,25,321,5-,5.75,5,87,4-,2.27,2,25,3-,4.26,4,56,2-,2.94,2,38,1-,阳性率,(%),阳性人数,样本人数,年龄别,年龄组,样本量,阳性数,阳性率(%),1-,169,1,0.59,5-,292,7,2.40,10-,248,13,5.24,15-,130,11,8.46,某市乙肝表面抗原检测结果,年龄组,东城,西城,南城,北城,1-,3.03,0.00,0.00,0.00,5-,0.00,7.14,4.76,3.08,10-,2.38,0.00,4.55,6.78,15-,0.00,18.18,9.52,0.00,某市各区的乙肝表面抗原阳性率(%),一、计数资,料分析中的错误举例,3.一般的,2,检验,只能得到总的是否存在差异的结论。
月份,样本量,阳性人数,阳性率(,%,),3,1111,40,36.0,4,2491,53,21.3,5,1673,14,8.4,6,1463,8,5.5,7,623,2,3.2,8,521,8,15.4,9,136,1,7.4,某病不同月份检出率,2,=58.16 P0.0000,一、计数资,料分析中的错误举例,类似这样的错误不仅存在于计数资料的统计分析中,经常还发现于Logistic回归的结果分析中不同职业对于某种职业肿瘤的危险度分析,3.24,丁,0.58,丙,2.31,乙,1,甲,OR,职业类型,二、统计图表的错误使用,1.统计表的误用:,主要是不符合主谓语要求在统计表中,要突出研究者所要分析的指标,要将其准确的描述清楚,例如在不同条件下该指标的变化、差异等因此一般,要将不同条件作为主语,指标作为谓语统计制表要符合主谓语的原则统计表的正确表达格式,组别,指标1,指标2,指标3,指标4,甲,乙,丙,丁,主谓语颠倒的例子,正确的表达方式,二、统计图表的错误使用,2.统计图的误用:,1)线图的误用:线图只能用于描述某个指标(如吸烟率)随定量指标(如时间、身高)发生变化的情况而不能用来描述某个指标(如吸烟率)在某个定性/分类指标不同取值/分类(如地区)之间的差异。
因为分类指标中的各个分类值之间没有大小的关系2)图的滥用:在PPT中用图比较清晰,而在论文中除非表示趋势,一般不建议用图二、统计图表的错误使用,错误的横坐标表示正确的横坐标表示,三、Logistic 回归中的主要统计学错误,哑变量设置中的错误,比数比与相对危险度的关系,用哑变量表示的自变量各个水平之间的比数比的估计,比数比与相对危险度的正确解释(因素之间作用大小的比较),三、Logistic 回归中的主要统计学错误,哑变量设置中的错误,下例是一个有关分类变量赋值的例子:,某个吸烟调查中一些自变量的意义及赋值,变量名变量意义 变量可能取值研究者对变量的赋值,A,如果想要烟,你认为 非常容易;,1,你能容易得到吗?有点容易;,2,有点困难;,3,非常困难4,B,在过去的一个月里,没有看到过;,1,你是否在电视里看到 看到过,是关于反对吸烟的;,2,过有关吸烟的任何内容?看到过,是关于赞成吸烟的;,3,看到过,反对与赞成的都有4,C,你的祖母是否吸烟?不吸;,1,不知道;,2,吸烟3,三、Logistic 回归中的主要统计学错误,哑变量设置中的错误:,存在的主要问题剖析:,变量,A,、,B,、,C,均为分类变量,而分类变量的各个分类值之间是没有大小的。
解决的办法:设置哑变量用哑变量表示变量,B,的取值可能,可能回答,B1B2B3,没有看到过,000,看到过,是关于反对吸烟的,100,看到过,是关于赞成吸烟的,010,看到过,反对与赞成的都有,001,三、Logistic 回归中的主要统计学错误,2.比数比与相对危险度的关系:,队列研究中暴露与患病的关系,暴露情况患病情况合计,患病未得病,暴露组,a ba+b,未暴露组,c dc+d,合计,a+cb+da+b+c+d,三、Logistic 回归中的主要统计学错误,2.比数比与相对危险度的关系:,相对危险度:,RR =a(a+b)/c(c+d),=a(c+d)/c(a+b),比数比:,OR =,a(a+b)/b(a+b)/c(c+d)/d(c+d),=(ad)/(bc),当,,a (a+b),c(c+d)时,可以有,a(a+b)ab 及c(c+d)cd,此时,才可以有:RROR,因此要分析什么时候存在这种关系,什么时候不存在三、Logistic 回归中的主要统计学错误,3.用哑变量表示的自变量各个水平之间的比数比的估计,假设在研究吸烟与一些因素的关系时,拟合了下列形式的Logistic回归方程:,Logit(P|y=1)=b0+b1 B1+b2 B2+b3 B3+b4(SEX)+b5(AGE),y=1为吸烟,y=0 为不吸烟。
AGE为年龄(岁)SEX为性别,SEX=1为男性,SEX=0为女性B1,B2,B3的定义同前b0为截距,b1-b5分别为各自变量的偏回归系数三、Logistic 回归中的主要统计学错误,3.用哑变量表示的自变量各个水平之间的比数比的估计,我们的研究设想是比较看到过烟草广告不同情况对于吸烟的影响进行比较的指标是OR因此要估计不同情况下的OR大小自变量第一个水平,B1=0,B2=0,B3=0,其比数为:,P0/(1-P0)=expb0+b4(SEX)+b5(AGE)第二水平:B1=1,B2=0,B3=0,P2/(1-P2)=expb0+b1+b4(SEX)+b5(AGE)第三水平:B1=0,B2=1,B3=0,P3/(1-P3)=expb0+b2+b4(SEX)+b5(AGE)第四水平:B1=0,B2=0,B3=1,P4/(1-P4)=expb0+b3+b4(SEX)+b5(AGE)三、Logistic 回归中的主要统计学错误,3.用哑变量表示的自变量各个水平之间的比数比的估计,自变量的第二水平(看到过关于反对吸烟广告的组)与对照组(没有看到过任何吸烟广告组)的OR为:,OR(二水平:一水平),=expb0+b1+b4(SEX)+b5(AGE)/expb0+b4(SEX)+b5(AGE),=exp(b1)。
其他各组与对照组的OR可以仿照计算即,,OR(三水平:一水平)=exp(b2),OR(四水平:一水平)=exp(b3)三、Logistic 回归中的主要统计学错误,3.用哑变量表示的自变量各个水平之间的比数比的估计,设置为哑变量后各水平之间的比数比,变量水平 一水平 二水平 三水平四水平,对照(一水平),1 exp(-b1)exp(-b2)exp(-b3),二水平,exp(b1),1,exp(b1-b2)exp(b1-b3),三水平,exp(b2),exp(b2-b1),1,exp(b2-b3),四水平,exp(b3),exp(b3-b1),exp(b3-b2),1,三、Logistic 回归中的主要统计学错误,3.用哑变量表示的自变量各个水平之间的比数比的估计,设置为哑变量后各水平之间的比数比,变量水平 一水平 二水平三水平 四水平,对照(一水平),1 1.56 3.56 0.86,二水平,0.64,1,0.44 1.81,三水平,0.28,2.28 1 4.14,四水平,1.16,0.55 0.24 1,三、Logistic 回归中的主要统计学错误,4.比数比及相对危险度的正确解释,某文献在研究影响妇女产前检查的可能因素时,拟合了一个Logistic回归模型。
在进行分析后,认为由于量纲相同,可以由回归系数的绝对值直接判定它们与产前检查关联强弱其结论为:孕产期卫生知识妇女文化程度妇女年龄丈夫文化程度丈夫职业家庭距卫生院距离三、Logistic 回归中的主要统计学错误,4.比数比及相对危险度的正确解释,某文献对一些自变量的设置,变量名分组,年龄1:15-2:20-45,妇女受教育程度1:初中以下 2:初中及以上,丈夫的职业1:农业 2:非农业,三、Logistic 回归中的主要统计学错误,4.比数比及相对危险度的正确解释,设置为哑变量后各水平之间的比数比,变量水平 一水平 二水平三水平 四水平,对照(一水平),1 1.56 3.56 0.86,二水平,0.64,1,0.44 1.81,三水平,0.28,2.28 1 4.14,四水平,1.16,0.55 0.24 1,谢谢,。