当前位置首页 > 高等教育 > 统计学
搜柄,搜必应! 快速导航 | 使用教程

chapter5参数估计医学统计学

文档格式:PPT| 68 页|大小 946.50KB|积分 15|2024-12-10 发布|举报 | 版权申诉
第1页
第2页
第3页
下载文档到电脑,查找使用更方便 还剩页未读,继续阅读>>
1 / 68
此文档下载收益归作者所有 下载文档
  • 版权提示
  • 文本预览
  • 常见问题
  • 单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,*,第六章 参数估计基础,潍坊医学院卫生统计学教研室,,1,Qualitative data,,Analysis(ranked,),Quantitative data,,analysis,,Statistical,,description,Statistical,,Inference,Statistical,,Inference,Statistical,,description,Statistical,,analysis,,Statistical,,description,Statistical,,description,Statistical,,Inference,Statistical,,Inference,Parameter Estimation,Hypothesis Test,Parameter Estimation,,2,,Chapter5——,目的要求,1,、掌握均数的抽样误差与标准误的概念,,2,、了解,t,分布的基本特征,,3,、掌握总体均数的区间估计,,,3,,μ,=,119.41cm,,σ,= 4.38cm,估计全国七岁男童的平均身高,总体参数,样本统计量,,4,,第一节 抽样误差,抽样误差,:,由于总体中,个体变异,的存在,在,抽样,过程中产生的样本统计量与总体参数间的差异以及样本统计量与样本统计量间的差异。

    两种表现形式,:,,样本统计量与总体参数间的差异,,样本统计量间的差异,,,5,,抽样误差产生的基本条件,个体变异,,抽样研究,,6,,抽样误差的特点,抽样误差是,不可避免,的!,,,抽样误差是,有规律,的!,,7,,SAMPLE 1,:,x,11,x,12,x,13,x,14,...x,1n,SAMPLE 2,:,x,21,x,22,x,23,x,24,...x,2n,SAMPLE k,:,x,k1,x,k2,x,k3,x,k4,...,x,kn,A Simulation Study,原始,,总体,,,μ,图,1,k,个样本均数的频数分布图,,8,,一、,样本均数的抽样分布与抽样误差,假定某年某地所有,13,岁女学生身高服从总体均数,,,=155.4cm,,总体标准差,,,=5.3cm,的正态分布,N,(,,,,,2,)该地每一个,13,岁女学生都有一个身高测量值,我们将她们每个人的身高测量值(,cm,)都录入计算机,存在数据库里做为一个有限总体然后通过计算机在这样一个有限的总体中作随机抽样,共抽,100,次每次均抽取,30,例(,n,i,,= 30,)组成一份样本,可以算出每一份样本的平均身高。

    9,,,,100,=156.6,,,S,100,= 1.16,,x1,x2,x3…x30,,,,2,=158.1,,,S,2,=0.95,,x1,x2,x3…x30,样本含量,n,i,,=30,,抽样次数,m,=100,,,μ,=155.4cm,,,σ,=5.3cm,,,,,1,=156.7,,,S,1,= 0.91,,x1,x2,x3…x30,某地所有,13,岁女学生身高总体,一、,样本均数的抽样分布与抽样误差,随机抽样,共抽,100,次每次均抽取,30,例,,10,,表,6-1,从正态总体,N,(155.4,,5.3,2,),中抽到的,100,个份随机样本的计算结果,,11,,表,6-2,从正态总体,N,(155.4, 5.32),抽样得到的样本均数的频数分布,,12,,图,2,从,N,(,155.4,, 5.32),抽样得到的样本均数的频数分布,,13,,正态总体中抽样时样本均数的抽样分布特点,各样本均数未必等于总体均数(,155.4cm,),;,,样本均数之间存在差异,;,,样本均数的分布,很有规律,:,围绕着总体均数(,155.4cm,),中间多、两边少,左右基本对称,也服从正态分布。

    样本均数的变异较之原变量的变异(,5.3cm,)大大缩小14,,表,6-1,从正态总体,N,(155.4,,5.3,2,),中抽到的,100,个份随机样本的计算结果,,15,,中心极限定理,(,central limit theorem),Case 1:,,,从正态分布总体,N,(,μ,,,σ,),,中随机抽样(每个样本的含量为,n,),,可得无限多个样本,每个样本计算样本均数,则样本均数也服从正态分布样本均数的均数为,μ,;,,样本均数的,标准差为,样本均数,,的标准误,,16,,标准误,(standard error),的计算,样本统计量(均数或率)的标准差称为标准误标准误的计算公式,(5.1),(5.2),:,,,,样本均数标准误的大小与标准差成正比,与样本含量,n,的平方根成反比,即在同一总体中随机抽样,样本含量,n,越大,抽样误差越小所以在实际应用中可通过增加样本含量,n,来减小样本均数,的,标准误,从而降低抽样误差17,,例,2000,年某研究者随机调查某地健康成年男子,27,人,得到血红蛋白量的均数为,125g/L,,,标准差为,15g/L,试估计该样本均数的抽样误差解:,,,,18,,均数标准误的应用,,,1,、表示均数抽样误差大小,描述(,n,相同)样本均数的离散程度,反映用样本均数估计或推断总体均数的可靠性;,,,2,、与样本均数相结合,用于估计总体均数的置信(置信)区间 ;,,,3,、用于进行均数的假设检验。

    19,,表,I,,标准差与标准误的区别与联系,联系:⒈ 都是表示离散程度的指标,,⒉都与,n,大小有关,20,,,随机变量,X,~ B,(,n,,,),标准误,二、,样本,率,的抽样误差,样本频率的标准差称为频率的标准误,反映样本频率的离散程度,反映样本频率抽样误差大小样本,率,的抽样误差,,21,,,例,6-2,某市随机调查了,50,岁以上的中老年妇女,776,人,其中患有骨质疏松症者,322,人,患病率为,41.5%,,试估计该样本频率的抽样误差22,,第二节,t,分布,实际工作中,总体方差未知,用样本方差代替,此时:,,23,,正态分布的标准化变换,,,24,,一、,t,分布的概念,设从正态分布,N,(,,,,,2,),中随机抽取,,含量为,n,的样本,样本均数和标准差,,分别为 和,s,,则:,,,~,t,分布,,,,=,n,,,1,则,t,值服从自由度为,n-1,的,t,分布,(t-distribution),Gosset,于,1908,年在,Biometrika,杂志(,《,生物统计,》,)上发表该论文时用的是笔名“,Student”,,故,t,分布又称,Student,t,分布。

    Gosset,,25,,,,N,(,,,,,2,),,n,,n,n,,,26,,t,分布试验:,从,前述的,13,岁女学生身高这个正态总体中分别作样本量为,3,和,50,的随机抽样,各抽取,1000,份样本,并分别得到,1000,个样本均数及其标准误对它们分别作,t,变换,并将,t,值绘制相应的直方图二,、,t,分布的图形与特征,,27,,,,(a) n=3,,,(b) n=50,图,4,不同样本含量,t,值的频数分布,,28,,,f,(,t,),,,=∞,(标准正态曲线),,,=5,,,=1,0.1,0.2,-4,-3,-2,-1,0,1,2,3,4,0.3,图,5,自由度分别为,1,、,5,、∞时的,t,分布,,29,,,t,分布的特征,单峰分布,曲线以,0,为中心,左右对称类似于标准正态分布t,分布的形状与自由度,,有关,,自由度越小,,则 越大,,曲线越“扁平” ;,,自由度越大,,则 越小,,曲线越“瘦高” ;,,当自由度为无穷大时,,t,分布曲线与标准正态分布曲线完全吻合,,故标准正态分布是,t,分布,的特例30,,-t,t,0,,31,,单侧:,,P,(,t,,,t,,,,,),=,,P,(,t,,,,t,,,,,),=,,,t,α,v,,32,,-t,α/2,v,t,α/2,v,双侧:,P,(,t,≤-,t,α/2,ν,)+,P,(,t,≥,t,α/2,ν,)=,α,,P,(-,t,α,ν,<,t

    34,,t,界值释义,双侧,t,0.05/2, 9,=,2.262,表明:从正态分布总体中抽取样本含量,n,=10,的样本,则由该样本计算的,t,值大于等于,2.262,的概率为,0.025,,小于等于,-2.262,的概率亦为,0.025,P,(,t,≤-2.262)+,P,(,t,≥2.262),=,0.05,,或:,P,(-2.262<,t<,2.262)=1-0.05=0.95,35,,,样本指标 总体指标,,参数估计,第三节、总体参数的置信区间,,,36,,一、参数估计的基础理论,点估计,(,Point Estimation),,,区间估计,,(Interval Estimation),,37,,参数估计之一:点估计,样本统计量 总体参数,,用样本均数 作为总体均数 的,点估计值,,,,,,38,,,例,6-3 2000,年某研究所随机调查某地健康成年男子,27,人,得到血红蛋白的均数为,125g/L,,,标准差为,15g/L,即认为,2000,年该地所有健康成年男性血红蛋白量的总体均数,,为,125 g /L,,点估计,,39,,点估计的缺陷,μ,=?cm,σ,=?cm,,x1,x2,x3,x4……,,,N,,=143.3747,S,= 5.2347,,x1,x2,x3…x10,,=144.0681 S = 4.7245,,x1,x2,x3…x10,,=142.7203,,S= 9.2473,,x1,x2,x3…x10,样本含量,n,=10,,40,,置信区间,(confidence interval, CI),,按,(1-,,),的概率或置信度,估计总体参数所在范围,称作置信度为,(1-,,,),的置信区间。

    参数估计之二:区间估计,,41,,置信区间,:结,合,样本统计量和标准误,确定,,,具有,较大置信度(,1,,,,),可能包含总体参数,,42,,正确理解置信区间,结,合,样本统计量和,标准误,确定的,考虑了抽样误差,,43,,对“区间”的要求,,“区间”包含总体均数的可能性,(概率),比较大,,,考虑到,抽样误差(标准误),的影响,,,置信度,,一般取,0.05,或,0.01,,44,,正确理解置信区间,,置信区间通常由两个置信限,(confidence limit),构成,其中较小者称为,下限,,记为,C,L,,较大者称为,上限,,记为,C,U,严格地讲,置信区间并不包括上置信限和下置信限两个值,即置信区间是一开区间C,L,,,C,U,),,45,,二、总体均数的置信区间,,(一)总体均数的置信区间的计算,,46,,1,、,t,分布法,,σ,未知且样本例数,n,较小时,按,t,分布原理,-,t,a/2,,v,t,a/2,,v,a/2,a/2,,47,,单侧,置信区间,,48,,例,6-3,已知某地,27,名健康成年男子的血红蛋白量均数,=125 g /L,,标准差,S,= 15 g /L,。

    试问该市地健康成年男子血红蛋白平均含量的,95%,置信区间和,99%,置信区间各是多少?,,,,计算自由度:,v,=27-1=26,,查,t,界值表 :,,,= 0.05,时,双侧,,t,0.05/2,,,26,=2.056,,,,,,= 0.01,时,双侧,,t,0.01/2,,,26,= 2.779,;,,按公式计算:,,49,,表,5.3,某市,2008,年,20,名,19,岁女生身高,cm,154.18,164.09,158.51,148.51,164.23,167.03,159.42,156.22,161.14,170.47,159.68,159.08,159.06,159.74,163.96,163.33,150.74,165.88,165.23,160.08,求其总体均数的,95%,置信区间例,=160.53(cm),,,S=5.37(cm),,,95%,置信区间,,50,,2,、正态分布法,,(,1,),σ,已知,按标准正态分布原理计算,-,z,a/2,z,a/2,a/2,a/2,,51,,单侧,置信区间,,52,,2,、正态分布法,,(,2,),σ,未知但样本例数,n,足够大(,n,>,50,),时,,,由,t,分布可知,自由度越大,,t,分布越逼近标准正态分布,,,按标准正态分布原理计算,,53,,单侧,置信区间,,54,,例,6-4,某市,2000,年随机测量了,90,名,19,岁健康男大学生的身高,其均数为,172.2 cm,,标准差为,4.5 cm,,试估计该市,2000,年,19,岁健康男大学生平均身高的,95%,置信区间。

    55,,2.,两总体均数之差的,1–α,置信区间,双侧,单侧,,56,,表,5.7,实验前两组小鼠的肉芽肿重,组别,肉芽肿重(,mg,),,,,,,,,,,,treatment,110.0,165.2,137.4,129.8,163.0,153.5,187.0,86.1,202.3,148.6,,control,144.1,94.7,151.4,178.3,189.2,122.3,103.1,155.6,204.3,165.5,160.2,双侧,,57,,总体均数的置信区间总结,估计方法:,,t,分布方法:,σ,未知且样本例数,n,较小,,,,正态分布近似方法:,,σ,已知,,,,σ,未知但样本例数,n,足够大(,n,>,50,),,,,,,58,,,,95,%置信区间,99,%置信区间,,,公式,,区间范围 窄 宽,,估计错误的概率 大(,0.05,) 小(,0.01,),,95,%置信区间:从总体中作随机抽样,作,100,次抽样,每个样本可算得一个置信区间,得,100,个置信区间,平均有,95,个置信区间包括,μ,(,估计正确,),,只有,5,个置信区间不包括,μ,(,估计错误,),。

    59,,正确理解置信区间,置信度为,95%,的,CI,的涵义:,,平均来说每,100,个样本所算得的,100,个置信区间有,95,个包含总体参数,有,5,个未包含总体参数做一次抽样,“该置信区间包含总体参数”这句话未必正确,置信的程度为,95%,2 -1 0 1 2,,60,,参数估计,点估计,,用样本频率 作为总体频率 的,点估计值区间估计,,,,61,,(二)、总体概率的置信区间,估计方法:,,查表法:,当样本含量,n,较小,比如,n,,50,,,,正态近似法:,,当,n,足够大,且样本频率,p,和(,1,,p,),,均不太小时,如,np,与,n,(1,,p,),均大于,5,,,,62,,例,6-6,某医院对,39,名前列腺癌患者实施开放手术治疗,术后有合并症者,2,人,试估计该手术合并症发生概率的,95%,置信区间解:查附表,6,,,n,= 39,,,X,=2,,交叉处的数值为,1~17,,即该手术合并症发生概率的,95%,置信区间为,1% ~ 17%,63,,例,6-7,用某种仪器检查已确诊的乳腺癌患者,120,名,检出乳腺癌患者,94,例,检出率为,78.3%,。

    估计该仪器乳腺癌总体检出率的,95%,置信区间解,:,n,比较大,且,np,= 94,及,n,(1,,p,) = 26,均大于,5,,所以可用正态近似法估计总体概率的置信区间64,,置信区间的两个要素,置信度,(1-,),,可靠性,,一般取,90%,,,95%,可人为控制精确性,,是指区间的大小,(,或长短,),,,兼顾可靠性、精确性,,,65,,表,II,总体均数置信区间与参考值范围的区别,置信区间用于估计总体参数,总体参数只,,有一个 参考值范围用于估计个体值的分布范围,,,个体值有很多 95%,置信区间中的,95%,是可信度,即所求置信区间包含总体参数的可信程度为,95%,95%,参考值范围中的,95%,是一个比例,即,,所求参考值范围包含了,95%,的正常人66,,Homework,简述标准差和标准误的区别和联系,,简述参考值范围与均数的置信区间的区别,.,,,67,,谢谢大家!,,68,,。

    点击阅读更多内容
    卖家[上传人]:dfg836519
    资质:实名认证