医学统计学是运用概率论与数理统计的原理及方法,结合医学实际,研究数字资料的搜集、整理分析与推断的一门学科。
医学研究的对象主要是人体以及与人的健康有关的各种因素。生物现象的一个重要特点就是普遍存在着变异。所谓变异(个体差异),系指相同条件下同类个体之间某一方面发展的不平衡性,系偶然因素起作用的结果。例如同地区、同性别、同年龄的健康人,他们的身长、体重、血压、脉搏、体温、红细胞、白细胞等数值都会有所不同。又如在同样条件下,用同一种药物来治疗某病,有的病人被治愈,有的疗效不显着,有的可能无效甚至死亡。引起客观现象差异的原因是多种多样的,归纳起来,一类原因是普遍的、共同起作用的主要因素,另一类原因则是偶然的、随机起作用的次要因素。这两类原因总是错综复杂地交织在一起,并以某种偶然性的形式表现出来。科学的任务就在于,要从看起来是错综复杂的偶然性中揭露出潜在的必然性,即事物的客观规律性。这种客观规律性是在大量现象中发现的,比如临床要观察某种疗法对某病的疗效时,如果观察的病人很少,便不易正确判断该疗法对某病是否有效;但当观察病人的数量足够多时,就可以得出该疗法在一定程度上有效或无效的结论。所以,医学统计学是医学科学研究的重要工具。
医学统计学在本世纪二十年代以后才逐渐形成为一门学科。解放前,我国学者即致力于把统计方法应用到医学中去,但人力有限、范围较窄。解放后,随着医学科研工作的发展,本学科得到迅速普及与提高。通过大量实践,在不少方面积累了自己的经验,丰富了医学统计学的内容。而电子计算机的作用,更促进了多变量分析等统计方法在医学研究中的应用。
医学统计学的内容包括:①统计研究设计。我们制订调查计划或实验设计时,除专业问题外,还必须从医学统计学的角度考虑,使调查或实验结果能够科学地回答所研究的问题。一个好的设计可以用较少的人力、物力和时间取得更多的较可靠的资料。②总体指标的估计。医学研究中实际观测或调查的部分个体称为样本,研究对象的全体称为总体。人们除用均数、率等统计指标对调查或实验结果进行描述外,更重要的是通过样本的信息,来估计总体中相应的统计指标,即参数估计。③假设检验。就是依据资料性质和所需解决的问题,先建立适当的假设,然后采用适当的检验方法,根据样本是否支持所作的假设,来决定对假设的接受或拒绝。④联系、分类、鉴别与鉴测等研究。在疾病的防治工作中,经常要探讨各种现象数量间的联系,寻找与某病关系最密切的因素;要进行多种检查结果的综合评定、探讨疾病的分型分类:计量诊断,选择治疗方案;要对某些疾病进行预测预报、流行病学监督,对药品制造、临床化验工作等作质量控制,以及医学人口学研究等。医学统计学,特别是其中的多变量分析,为解决这些问题提供了必要的方法和手段。本讲义介绍了医学统计的基本内容,此外,本讲义中还包括军医必须了解或掌握的我军部队、医院、战时的各种登记和统计表,常用统计指标的计算和分析等内容。
作为医学科学工作者,学习和掌握一定的统计学知识是十分必要的。第一,在阅读医学书刊中,经常会遇到一些统计学方面的名词概念,有了这方面的知识,有助于正确理解文章的涵义;第二,军医在实际工作中,经常要做登记工作,要填写各种报表,只有懂得了原始登记与统计结果的密切关系,并掌握了收集、整理与分析资料的基本知识与技能,才能自觉地、认真地把登记工作做好,积累有科学价值的资料;第三,参加科研工作时,从开始设计到数据整理分析与统计结果的表达,每一步骤都需要统计学知识;第四,在制订计划、检查工作、总结经验时,都离不开统计数字,尤其在撰写科研论文时,有了统计学知识,才能使数据与观点密切结合,作出正确的结论。
医务工作者学习统计学,首先必须明确:我们应该掌握的关键不是数学原理,而是怎样合理地、恰当地把数理统计的方法应用到医学科研工作中去,并结合专业知识,提高分析问题与解决问题的能力。其次在学习过程中,要理论联系实际,重视实习与练习。作业中要遵守数学上的规则与习惯,如小数点及各个位数应上下对齐,一个多位数的数值不能分写成两行,等号不能写在一行的末了而应写在第二行的开头等等。再次,各种统计符号必须写正确,汉字、阿拉伯字与外文字母必须写清楚,不能写成模棱两可,只有在学习时养成良好的习惯,将来工作中才能少出差错。
最后我们着重指出:统计工作最根本的一条就是实事求是,如实反映情况。因此,无论日常工作或科学研究中,必须养成严肃认真的作风和反复核对的习惯,同一切弄虚作假的现象进行坚决的斗争,尽最大努力获得正确数据,使分析结论建立在可靠的基础上。
前面已提及,医学研究中实际观测或调查的一部分个体称为样本,研究对象的全部称为总体。如作水质检验时从井水或河水中采的水样,临床化验中从病人身上采的血液或其它活体组织标本,是样本;而整个一口井或一条河的某一段所有的水,某病人全身所有的血液或某个组织器官,则是总体。这类总体是具体存在的,但另有些总体却是假想的,只是理论上存在的一个范围。例如试验某一治疗流感新药的疗效,最初接受治疗的一批流感患者,不论数量多少,都只是一个样本。若该药疗效得到肯定,从而加以推广,那么此后凡在相同条件下接受该药治疗的所有流感患者,都属于这个总体。可是当初试用时,这个总体还并不存在,是假想的。
总体包含的观察单位通常是大量的甚至是无限的,在实际工作中,一般不可能或不必要对每个观察单位逐一进行研究。我们只能从中抽取一部分观察单位加以实际观察或调查研究,根据对这一部分观察单位的观察研究结果,再去推论和估计总体情况。如上述某新药治疗流感例子,试验治疗的只是少数有限的病人,而结论却要推广到全体,得出一个该药对所有流感患者之疗效的规律性的认识。所以说,观察样本的目的在于推论总体,这就是样本与总体的辩证关系。
为了使样本能够正确反映总体情况,对总体要有明确的规定;总体内所有观察单位必须是同质的;在抽取样本的过程中,必须遵守随机化原则;样本的观察单位还要有足够的数量。
又称机率,是用以描述某事件发生的可能性大小的一个数值。
在自然界和人类社会中,存在着两类不同的现象:①在一定条件下,肯定发生的事件叫做必然事件,肯定不发生的事件叫做不可能事件。如在适当温度湿度下经一定时间孵化,正常受精鸡蛋必然会孵出小鸡来,而石头是不可能孵出小鸡来的。必然事件与不可能事件虽然形式相反,但两者在发生某种结果与否都是确定的,故统称确定性现象。②在基本条件不变的情况下,可能发生的结果有多种,究竟发生哪种结果,事先不能肯定,这类现象叫做随机现象。随机现象的表现结果称为随机事件。如任意抛掷一枚硬币,可能徽花向上也可能币值向上,抛掷前不能肯定,这是一个随机现象,而结果出现“徵花向上”则是一个随机事件。
(一)古典概率是最简单的随机现象的概率计算。这类随机现象具有两个特征:①在观察或试验中它的全部可能结果只有有限个,譬如为n个,记为E1,E2,…,En,而且这些事件是两两互不相容的,即任何两个事件不能同时发生;②事件E1,E2,…,En的发生或出现是等可能的,即它们发生的概率都一样。古典概率的大部分问题都能形象地用摸球模型来描述。有利于直观地理解概率论的许多基本概念;而且它有着多方面的重要应用,例如工业产品的抽样检查等。
(二)统计概率上述“事件”是指不能再进行分解或不能由其它事件构成的基本事件。在实际工作中,基本事件的发生并不总是等可能的,而且有时为无穷多个。这样就有必要把古典概率的定义加以推广,从事后经验的角度来理解概率的意义。实践证明,虽然个别随机事件在某次试验或观察中可以出现也可以不出现,但在大量重复试验中它却呈现出明显的规律性。假设在相同条件下,独立地重复做n次试验,某随机事件A在n次试验中出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率。当试验重复很多次时,随机事件A的频率m/n就会在某个固定的常数P附近摆动,而且n愈大摆动的幅度愈小。这种规律性称之为统计规律性。频率的稳定性说明随机事件发生的可能性大小是随机事件本身固有的、不随人们意志为转移的客观属性,所以在医学科研中,当n充分大时,就以频率作为概率的近似值,记住P(A)即

由此可见,频率是就样本而言的,而概率总是从总体的意义上说的。这样,概率就为预计某一事件发生的可能性大小,提供了衡量的尺度。
例如:某病患者40名,用某疗法治疗后,其中35人痊愈,治愈者占治疗人数的35/40,这是频率。因为数量少,这个频率可能波动较大。假如经过长期的大量观察,比如数百、数千例,得到治愈率为70%,我们就可以说,该疗法治愈某病的概率近似值为70%。
又如:某院妇产科在一个月内出生婴儿30名,其中男婴18名,占新生儿数的18/30,这叫频率。大量统计表明,人口中男女的比例基本上是1:1。这是个较稳定的常数,即概率的近似值。于是,在婴儿分娩前,我们就可用它作为尺度,预计是男的概率为1/2(0.5或50%),是女的概率也为1/2(0.5或50%)。
通过以上讨论,可以知道:如果某事件是必然事件,则有m=n,所以必然事件的概率等于1;如果某事件是不可能事件,则有m=0,所以不可能事件的概率等于0;如果某事件是随机事件,则有0130/>110毫米汞柱)的等级顺序分组,清点各组人数,这时这组血压资料又转化为等级资料了。又如在计量诊断中,将某些阳性体征根据确诊病人的概率赋予分数,分数的多少代表量的大小,这样原来的计数资料就转化为计量资料。
由于计量资料可以得到较多的信息,所以凡能计量的,尽量采用计量资料。
统计表与统计图是整理、表达和分析数字资料的重要工具。运用统计表可避免冗长的方案叙述。能把有关的数字列在一起,既便于计算比较,又易于发现错误和遗漏。绘制统计图可使数字资料形象化、通俗易懂,并能把资料的变化趋势和各种现象间的关系明确地表示再现,使读者在短时间内获得明晰的印象。统计图只能表示概数,要想了解准确的数字,仍需看统计表。
统计表可从广义或狭义上看。广义的统计表包括调查表、登记表、过渡表及表达最后结果的统计表在内。狭义的统计表是指表达统计结果的统计表。下面简述狭义统计表的结构和编制。
从统计表的外形看,可分为标题、标目、线条和数字等;从表的内容上看,又可分为主辞和宾辞两部分。统计表中被说明的事物称为表的主辞,用来说明主辞的统计指标称为表的宾辞,统计表的基本格式如下:
表号标题(包括何时、何地、何事)
备注:
例如:表2.1是某医院用五种检查方法,对上消化道恶性肿瘤的检出率。其中五种检查方法是统计表的主辞,放在表的左侧横标目位置:而检查数、检出数和检出率是统计指标,为宾辞,放在表的右侧,即纵标目位置。一张设计比较好的统计表,将主辞和宾辞结合起来,可读成一句完整而通顺的话。如:胃镜检查48例,检出44例,检出率为91.7%等。
表2.1 各种方法对上消化道恶性肿瘤检出率
| 检查方法 | 检查数 | 检出数 | 检出率(%) |
| 胃镜 | 48 | 44 | 91.7 |
| 病理活检 | 48 | 34 | 70.8 |
| 钡餐 | 35 | 14 | 40.0 |
| 刷子细胞 | 16 | 10 | 62.5 |
| 联合诊断 | 16 | 16 | 100.0 |
应注意,在编制统计表时,一般都将主辞置于表的左侧,宾辞置于表的右侧。但有时为了节省篇幅或便于排印,而把主辞和宾辞的位置互换,如表2.6。因此,阅读统计表时,应从内容上而不要只从位置上来辨别主辞与宾辞。
根据主辞的情况,统计表可分为三种:简单表、分组表和复合表。
(一)简单表主辞未经任何分组,只罗列了观察单位(或地区)、时间或统计指标的统计表,称为简单表。如表2.1只罗列了检查方法,故为简单表。
(二)分组表主辞按一个标志分组的统计表称为分组表。如表2.2出院病人只按治疗结果一个标志分了组,故为分组表。
表2.2 某医院出院病人的治疗结果,1977年
| 治疗结果 | 出院人数 | 占出院总人数百分比(%) |
| 治 愈 | 3,795 | 80.1 |
| 好 转 | 676 | 14.2 |
| 无变化 | 206 | 4.3 |
| 转他院 | 18 | 0.4 |
| 死 亡 | 50 | 1.0 |
| 合 计 | 4,745 | 100.0 |
(三)复合表主辞按两个或两个以上标志结合起来分组的统计表称为复合表。如:表2.3是将心绞痛病人按病情严重程度及疗效结合起来分组的,故为复合表。
表2.3 某医院用“725—1”治疗心绞痛病人的疗效,1975年
| 病 情 | 显效 | 改善 | 无改变 | 合计 |
| 轻 度 | 17 | 24 | 3 | 44 |
| 中 度 | 10 | 19 | 4 | 33 |
| 较重度 | 2 | — | 1 | 3 |
| 总 计 | 29 | 43 | 8 | 80 |
(一)内容要简单明了,不可包罗万象。通常一个表只表达一个或两个内容。
(二)主辞与宾辞要划分清楚。通常主辞置于表的左侧,宾辞在右侧(有时为了节省篇幅,主辞与宾辞的位置也可互换)。
(三)标题是统计表的总名称,要用一句简单而又确切的话写出。通常包括表所说明的中心内容及时间和地点。
(四)标目统计表的标目有三种;纵标目、横标目和总标目。纵标目位于表的上端,说明该纵栏指标的含义及度量单位;横标目位于表的左侧,说明该横栏数字的含义;几个纵标目或横标目具有共同性质时,可冠以总标目。标目处理得好坏,是决定统计表质量的关键之一,因此,在制表中必须充分利用纵横两上标目,妥善安排主辞与宾辞的位置,此外,标目的层次不宜太多,(通常1至2层,最多不宜超过3层)。
(五)数字表内的数字是统计表的基本语言,必须准确无误。要求同一种统计指标各数值的准确度一致,书写时要求各个位数或小数点要上下对齐。表中数字暂缺时用“…”号填充。
(六)线条统计表中的线条应尽量少,但构成表的基本线条不能缺。通常表的上下边线,表头与表体之间,表头内总标目与纵标目之间都应有横线;如有合计时,部份数字与合计数字之间也要用横线隔开,其它线条均可省略。
(七)备注备注不是统计表的必需组成部分,遇有特殊情况须用备注时,可写在表的下面。
表2.4 是某医院传染科用侧柏叶注射液合并化疗(简称合并组)与单纯化疗(简称化疗组)两种疗法各治疗肺结核34例的疗效比较。该表绘制时存在以下缺点:(1)表的左上角不应有斜线,左上角标目与表内重复,应删去。(2)纵标目重复太多,(3)格线太多。(4)平均日数字精确度不一致,修改后见表2.5。
表2.4 两组病例主要症状及体征恢复正常所需平均日数

表2.5 两组病例(各34例)主要症状与体征恢复正常平均日数
| 症状与体征 | 例 数 | 恢复正常的平均日数 | |||
| 化疗组 | 合并组 | 化疗组 | 合并组 | 相差 | |
| 咳嗽咳痰 | 13 | 17 | 37.7 | 25.7 | 12.0 |
| 嘲热 | 8 | 11 | 40.0 | 26.6 | 13.4 |
| 肺部湿罗音 | 7 | 9 | 63.1 | 30.1 | 33.0 |
| 血沉大于20毫米 | 12 | 15 | 77.9 | 47.0 | 30.9 |
| 痰结核菌阳性 | 4 | 7 | 133.2 | 82.0 | 51.2 |
统计表的资料用几何图形或图案等形式表示即成为统计图。
统计图种类很多,常用的有:条图、圆图、百分条图、线图(包括半对数线图)、直方图和统计地图等。
统计图由以下各部份构成:
(一)标题每个图都应有标题。标题要简明确切,通常包括内容、时间和地点。其位置在图域之外,一般放在图域的下面。
(二)图域图域的长宽之比一般7:5为美观,圆图除外。
(三)标目纵横两轴应有标目,即纵标目和横标目,并注明度量衡单位。
(四)尺度纵横两轴都有尺度,横轴尺度自左至右,纵轴尺度自下而上,数值一律由小而大。尺度间隔要宽松。用算术尺度时,等长的距离应代表相等的数量。
(五)图例用不同线条或颜色代表不同事物时,需用图例说明。
统计资料的性质决定于统计表的主辞。主辞可分为品质的和数量的两类。主辞是品质的,如单位名称、性别、病型等为品质资料;主辞为数量的,如年龄、时间、脉搏等称为数量资料。数量资料又可分为连续性资料和间断性资料。连续性资料是指任何两个小的数值之间可以有无限个数值存在,如时间可依次分为年、月、日、时、分、秒、十分之一秒……等,所以时间是连续性资料。至于家庭人口数,在原始记录上不可能找到有4.3或5.8人口的家庭,所以人口数是间断性资料。
各类资料宜用何种图形表达示意如下:

(一)条图又名长条图 ,以条的长度表示事物的数量。可用以表示绝对数、也可用以表示相对数或平均数,常用的有单式条图、复式条图和分段条图。
1.单式条图:如图2.1,为某医院十年来六种疾病住院患者死亡人数。其资料见表2.6。
2.复式条图:用以比较两种或两种以上有关事物的数量。如图2.2表示某师各团菌痢和肠炎的发病人数,其资料见表2.7。
3.分段条图:用以比较事物的全部与其中一部分的数量。如图2.3表示某师各团传染病总人数及菌痢人数,其资料见表2.8。
绘制条图时应注意以下各点:
(1)图中各条要有同一基线,其尺度必须从“0”开始,否则会改变条间的比例关系。
(2)条的排列顺序由高到低,如事物有自然顺序者,也可按自然顺序排列。
(3)各条的宽度要一致,条间的空隙要相等,条间空隙一般不要大于条宽。
(4)尽量避免用折断或回转的条。
表2.6 某医院十年来六种疾病住院患者死亡人数
| 病名 | 瘤(癌) | 脑外伤 | 心脏病 | 白血病 | 脑溢血 | 肺炎 |
| 死亡人数 | 187 | 44 | 42 | 38 | 32 | 29 |

图2.1 某医院十年来六种疾病住院患者死亡人数
表2.7 某师各团菌痢、肠炎发病人数 19××年
| 病种 | 一团 | 二团 | 三团 | 炮团 |
| 菌痢 | 41 | 43 | 61 | 34 |
| 肠炎 | 26 | 23 | 38 | 35 |

图2.2 某师各团菌痢、肠炎发病人数(19××年)
表2.8 某师各团传染病部人数及菌痢发病人数19××年
| 一团 | 二团 | 三团 | 炮团 | |
| 传染病发病总人数 | 81 | 148 | 179 | 128 |
| 其中菌痢发病人数 | 41 | 43 | 61 | 34 |

图2.3 某师各团传染病总人数及菌痢发病人数(长条全段表示传染病发病人数,下段表示菌痢发病人数)
(二)圆图圆图用扇形的面积,也就是圆心角的度数来表示数量。它用来表示组数不多的品质资料或间断性数量资料的内部构成,各部份百分比之各和必须是100%。如图2.4表示某医院用10%明矾液治疗面部深层海绵状血管瘤的疗效构成,其资料见表2.9。
圆心角(度)的计算方法是将百分数乘以360,如表2.9中的特效百分比所占的圆心角度数为69.5%×360=250.2,余类推,见表2.9最后一栏。
绘制圆图时应注意:各扇形应按大小或自然顺序自时钟9时或12时处开始,顺时针方向排列;各扇形内要注明简要的文字和百分比。
表2.9 10%明矾液治疗面部深层海棉状血管瘤疗效
| 疗效 | 病例数 | 百分比(%) | 绘图用圆心角(度) |
| 特效 | 66 | 69.7 | 250.0 |
| 显效 | 14 | 14.7 | 52.9 |
| 有效 | 11 | 11.6 | 41.8 |
| 无效 | 4 | 4.2 | 15.1 |
| 合计 | 95 | 100.0 | 360.0 |

图2-4 10%明矾治疗面部深层海绵状血管瘤疗效
(三)百分条图凡能画圆图的资料,也可用百分条图表示,绘制方便。尤其在比较几个组的内部构成时,可绘制长宽相同的几个直径,各直条内相应构成部分的排列顺序、花纹或图案应一致,并附一百分尺度。如图2-5,资料来源见表2-10。
表2-10 某医院用脊电针治疗慢性支气管炎的结果19××年
| 病型 | 总例数 | 人 数 | 百分比(%) | ||||||
| 近控 | 显效 | 好转 | 无效 | 近控 | 显效 | 好转 | 无效 | ||
| 单纯型 | 834 | 525 | 180 | 103 | 26 | 62.9 | 21.6 | 12.4 | 3.1 |
| 喘息型 | 179 | 93 | 38 | 34 | 14 | 52.0 | 21.2 | 19.0 | 7.8 |

图2-5 某医院用脊电针治疗慢性支气管炎的结果
(四)线图线图适用于连续性数量资料,常用以表示事物或现象在时间上的发展变化,如图2-6。从图中可看出7~10月份为菌痢发病的高峰期。资料见表2-11。
绘制线图时,通常以横轴表示时间或变量,纵轴表示指标,两轴的尺度均可不从“0”点开始。图内线条一般不超过四、五条,可分别以不同的线段或颜色表示,并附图例说明。
表2-11 某部队1970年逐月菌痢发病人数
| 月份 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 合计 |
| 发病人数 | 4 | 4 | 6 | 5 | 7 | 8 | 28 | 75 | 97 | 49 | 27 | 14 | 324 |

图2-6 某部队1970年逐月菌痢发病人数
半对数线图 用于比较两种或两种以上率的变化速度。它是将线图绘在半对数坐标纸(纵轴为对数尺度,横轴为算术尺度)上。如果将表2-12中的三组数据时间从A到B分别绘在算术格纸(图2-7)与半对数格纸(图2-8)上,将呈现两种不同的结果。
表2-12 绝对差与相对差比较
| A→B | 绝对差(A-B) | 相对比(A/B) | 对数差(1gA-1gB) |
| (1)1000→100 | 1000-100=900 | 1000/100=10 | 1g 1000 -1g 100=3-2=1 |
| (2)100→10 | 100-10=90 | 100/10=10 | 1g 100 -1g 10=2-1=1 |
| (3)10→1 | 10-1=9 | 10/1=10 | 1g 10 -1g 1=1-0=1 |

图2-7 三组数据绘在算术格纸上

图2-8 三组数据绘在半对数格纸上
在算术格纸上三条直线的坡度相差悬殊,这是由 于三组数据的绝对差相差悬殊。在半对数格纸上三条直线平行,这是由于三组数据的对数差相等,图上反映出三组数据下降的幅度相同。
例如从表2-13可看到细菌性痢疾的发病率最大值(45.37‰)为最小值(14.62‰)的3倍多,肺结核的最大值(3.65‰)为最小值(0.52‰)的7倍多。所以前者下降速度较慢,而后者较快,如果画在普通方格纸上,如图02-9,将给人以错觉,而画在半对数纸上如图2-10,就能正确地表达两种疾病发病率下降速度的快慢。
绘制半对数线图时,横轴为算术尺度(是等距的),用来表示时间;而纵轴为对数尺度(是不等距的),用来表示被比较事物的某种率,纵轴尺度的标法,自1-10为一组,上一组各数为下一组相应数的10倍。
表2-13 某部二十年来细菌性痢疾与肺结核的发病率 1958-1977
| 年份 | 发病率(‰) | 年份 | 发病率(‰) | ||
| 细菌性痢疾 | 肺结核 | 细菌性痢疾 | 肺结核 | ||
| 1958 | 30.22 | 3.65 | 1968 | 18.06 | 1.10 |
| 1958 | 45.37 | 2.32 | 1969 | 14.06 | 1.24 |
| 1960 | 38.84 | 2.12 | 1970 | 16.06 | 1.30 |
| 1961 | 28.41 | 2.31 | 1971 | 17.89 | 1.06 |
| 1962 | 24.33 | 2.59 | 1972 | 16.71 | 0.94 |
| 1963 | 28.20 | 2.30 | 1973 | 15.29 | 0.76 |
| 1964 | 19.41 | 1.86 | 1974 | 19.11 | 0.66 |
| 1965 | 24.26 | 1.31 | 1975 | 21.69 | 0.57 |
| 1966 | 25.24 | 1.27 | 1976 | 17.56 | 0.53 |
| 1967 | 22.30 | 1.26 | 1977 | 19.96 | 0.52 |

图2-9 某部二十年来细菌性痢疾与肺结核的发病率1958-1977

图2-10 某二十年来细菌性痢疾与肺结核的发病率 1958-1977
(五)直方图直方图用矩形面积表示频数.如图2-11为我军某校部份同年龄同性别学员的身高分布,资料见表2-14.
表2-14 我军××学校部分学员的身长分配
| 身长(厘米) | 152- | 156- | 160- | 164- | 168- | 172- | 176- | 180- | 184- | 188- | 合计 |
| 人数 | 1 | 10 | 28 | 56 | 52 | 34 | 12 | 5 | - | 1 | 199 |

图2-11 我军××学校199学员的身长分配
当频数表的组距不等时,不能直接用各组频数绘制直方图,应先将组距化为相等,得出组距相等的各组的频数,再绘图,如表2-15的组距不等,若用各组的患者人数绘制直方图,得图2-12,给人以错觉,好象10~20岁组的患者人数最多,其实这是组距不等造成的,因为10岁以前各组的组距为1,而10岁以后各组的组距为10岁。因此,图2-12不能正确反映真实情况,应先将组距化为1,得出每岁平均患者人数,以此为矩形的高作图,如图2-13,才能正确表达出资料的实际情况。
绘制直方图的注意事项:
(1)直方图的的纵轴应从“0”开始,而横纵可以不从“0”点开始。
(2)直方图中各矩形之间可划直线隔开,也可以不划。
(3)当各组的组距不等时,不能直接用各组频数绘图,需要象表2-15那样处理(通常是将频数除以组距作高度)后再作图,否则会给人以错误印象或概念。
表2-15 ×年×市流行性乙型脑炎患者的年龄分布
| 年岁 | 0- | 1- | 2- | 3- | 4- | 5- | 6- | 7- | 8- | 9- | 10- | 20- | 30- | 40- | 50- | 合计 |
| 人数 | 3 | 3 | 9 | 11 | 23 | 22 | 11 | 14 | 8 | 6 | 36 | 13 | 11 | 4 | 1 | 175 |
| 每岁患者人数 | 3 | 3 | 9 | 11 | 23 | 22 | 11 | 14 | 8 | 6 | 3.6 | 1.3 | 1.1 | 0.4 | 0.1 | - |

图2-12 ×年×市流行性乙型脑炎患者的年龄分布

图2-13 ×年×市流行性乙型脑炎患者的年龄分布
7.统计地图
统计地图用以表示事物(或现象)在地域上的分布情况,多用点、线、颜色、符号等在地图上表示某种现象的数量,图图2-14为我军某部队一次痢疾流行时的患者分布情况。

图2-14 某部队一次痢疾流行时的患者分布
1.统计图有哪几部分构成?制表的注意事项有哪些?
2.统计图有哪几部分构成?绘制统计图的注意事项有哪些?
3.如何根据资料的性质来选择适当的统计图形?
4.
(1)某中医研究院对77例治疗有效的慢性气管炎患者,停药两周后作了随访,结果如下表。试修改些表。
| 疗效分类(随访前) | 临床基本控制 | 显效 | 好转 | |||||||||
| 例 数 | 20 | 36 | 21 | |||||||||
| 停药两周后疗效随访结果 | 基本控制 | 显效 | 好转 | 无效 | 基本控制 | 显效 | 好转 | 无效 | 基本控制 | 显效 | 好转 | 无效 |
| 例 数 | 15 | 2 | 2 | 1 | 8 | 15 | 7 | 6 | 6 | 5 | 7 | 3 |
(2)某医院用中药细辛治疗“阿弗他性口炎”106例初步观察

5.根据下列统计资料试作统计图。
(1) 某地居民粪便中蠕虫卵两次检查结果
| 第一次阳性率(%) | 第二次阳性率(%) | |
| 钩 虫 | 61.22 | 31.36 |
| 蛔 虫 | 91.43 | 86.39 |
| 鞭 虫 | 17.14 | 16.51 |
(2) 痢疾杆菌药敏试验结果
| 制菌药物 | 试验株数 | 敏感度百分比(%) | ||||
| 高敏 | 中敏 | 轻敏 | 不敏 | 合计 | ||
| 老鹳草煎剂 | 243 | 48.5 | 30.4 | 16.1 | 5.0 | 100 |
| 丹贞合剂 | 250 | 53.2 | 36.4 | 10.4 | - | 100 |
| 呋喃唑酮 | 250 | 20.8 | 49.2 | 26.8 | 3.2 | 100 |
(3) 某部队1977年各月传染病发病人次
| 月份 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 合计 |
| 传染病发病人次 | 3 | 4 | 7 | 14 | 9 | 14 | 17 | 104 | 58 | 12 | 5 | 2 | 249 |
(4) 224例胸膜炎病人的年龄分配
| 病人年龄 | 各组人数占全部病人的百分比 |
| 11- | 4.1 |
| 16- | 13.5 |
| 21- | 44.6 |
| 31- | 27.1 |
| 41- | 8.9 |
| 51- | 1.8 |
| 合 计 | 100.0 |
(5) 某地1951-1956年肺结核、白喉的死亡专率
| 病 名 | 历年死亡专率(每十万人) | |||||
| 1951 | 1952 | 1953 | 1954 | 1955 | 1956 | |
| 肺结核 | 164.4 | 135.8 | 79.9 | 64.7 | 74.5 | 63.0 |
| 白喉 | 18.7 | 2.5 | 2.5 | 1.0 | 1.2 | 1.0 |
X2(称卡方)检验用途较广,但主要用于检验两个或两个以上样本率或构成比之间差别的显着性,也可检验两类事物之间是否存在一定的关系。
(一)X2检验的基本公式下页末行的例3.1是两组心肌梗塞病人病死率的比较,见表3.5,其中对照组未用抗凝药。两组病人的病死率不同,抗凝药组为25.33%,对照组为40.8%。造成这种不同的原因可能有两种:一种是仅由抽样误差所致;另一种是两个总体病死率确实有所不同。为了区别这两种情况,应当进行X2检验。其基本步骤如下:
1.首先将资料写成四格表形式,如表3.6。
将每个组的治疗人数分为死亡与生存两部分,各占四格表中的一格,这些数字称为实际频数,符号为A,即实际观察得来的数字。
2.建立检验假设 为了进行检验,首先作检验假设:两种疗法的两总体病死率相等,为35%(即70/200),记为H:π1=π2。即不论用或不用抗凝药,病死率都是35%,所以亦可以换一种说法:病死率与疗法无关。
上述假设经过下面步骤的检验后,可以被接受也可以被拒绝。当H被拒绝时,就意味着接受其对立假设即备择假设H1。此例备择假设为两总体病死率不相等,记为H1:π1≠π2
因为我们观察的是随机现象,所以无论是接受或拒绝H都冒有一定风险,即存在着错判的可能性。一般要求,当错误地被拒绝的概率α不超过一定的数值,如5%(或0.05),此值称为检验水准,记为α=0.05。
3.计算理论频数 根据“检验假设”推算出来的频数称理论频数,符号为T。计算方法如下:假设两总体病死率相同,都是35.0%,那么抗凝血组治疗75人,其死亡的理论频数应为75×35.0%=26.25人,而生存的理论频数为75-26.25=48.75人。用同样方法可求出对照组的死亡与生存的理论频数,前者为43.75人。后者为81.25人。 然后,把这些理论频数填入相应的实际频数格内,见表3.6括号内数字。
计算理论频数也可用下式(3.4)
TRC=nRnC/N(3.4)
式中,TRC为R行与C列相交格子的理论频数,nR为与计算的理论频数同行的合计数,nC为与该理论频数同列的合计数,N为总例数。
例如;表3.6第一行与第一列相交格子的理论频数(T11)为
T11=75×70/200=26.25
用两种方法计算,结果是相同的。
4.计算χ2值,计算χ2值的基本公式为:
X2=∑(A-T)2/t (3.5)
式中,A为实际频数,T为理论频数,∑为求和符号。
将表3.6里的实际频数与理论频数代入式(3.5)即求得χ2值。此例χ2=4.929。
从式3.5中可看出,实际频数与理论频数之差(A-T)愈小,所得的χ2值就愈小,理论频数是根据检验假设推算出来的,若与实际频数相差不大,说明假设与实际情况符合,于是就接受H,认为两病死率无显著差别;反之,若(A-T)大,则χ2值亦大,说明假设与实际不符,就拒绝假设,认为两病死率有差别。但χ2值大还是小,要有一个比较的标准,要查χ2值表(附表1),查χ2值表前先要定自由度。
5.求自由度 自由度是数学上的一个名词。在统计中,几个数据不受任何条件(如统计量,即样本特征数)的限制,几个数据就可以任意指定,称为有几个自由度。若受到P个条件限制,就只有n-p个自由度了。例如在四格表中有四个实际频数,如没有任何条件限制,则4个数字都可任意取值,有4个自由度,当a+b,,c+d,a+c,b+d都固定后,在a、b、c、d四个实际频数中,只能有一个频数可任意指定了,因此,四格表的自由度为1。其计算公式为:
ν=(R-1)(C-1) (3.6)
式中,ν为自由度,R为横行数,C为纵列数。
四格表有2行和2列(注意:总计与合计栏不算在内)。因此ν=(2-1)(2-1)=1。
6.求P值,作结论 根据自由度查χ2值表(附表1)。此表的左侧ν为自由度,表内数字χ2值,表的上端P是从同一总体中抽得此样本χ2值的概率。三者关系是:在同一自由度下,χ2值越大,从同一总体中抽得此样本的概率P值越小;在同一P值下,自由度越大,χ2值也越大。χ2值与概率P呈相反的关系。χ2检验的常用界值为:
χ20.05 在α=0.05水准处接受H,差别不显著
χ20.05≤χ20.01在α=0.05水准处拒绝HO,接受H1,差别显著
χ2≥χ20.01()P≤0.01 在α=0.01水准处拒绝HO,接受H1,差别显著
这里α是预定的检验水准。χ20.05()是当自由度为ν时与P=0.05相对应的χ2值,简称5%点,χ20.01()是与P=0.01相对应的χ2值,简称1%点。
当ν=1时,χ20.05(1)3.84,χ20.01(1)=6.63。本例自由度为1,求得χ2=4.929,介于3.84与6.63之间,或写成χ20.05(1)0.01。在α=0.05水准处拒绝H,接受H1,两总体率不等。对照组的病死率较抗凝血组高。
在α=0.05水准处拒绝H,说明若在同样情况下作100次判断,将有5次或不到5次的机会,将原没有差别的两总体率错判为有差别,或说这样判断犯I型错误的概率不超过5%。
下面将实例的检验步骤集中列出。
例3.1 两组心肌梗塞病人的病死率可见于表3.5,其中对照组未用抗凝药。抗凝血组病死率为25.33%,对照组为40.80%,问两组病死率有无显著差别?
表3.5 两组心肌梗塞病人病死率比较
| 组别 | 治疗人数 | 死亡人数 | 病死率(%) |
| 抗凝血组 | 75 | 19 | 25.33 |
| 对 照 组 | 125 | 51 | 40.80 |
| 总 计 | 200 | 70 | 35.00 |
检验步骤如下:
1.将资料列成四格表形式,如表3.6。
表3.6 四格表式样
| 死亡 | 生存 | 合计 | |
| 抗凝血组 | 19(26.25) | 56(48.75) | 75 |
| 对照组 | 51(43.75) | 74(81.25) | 125 |
| 总 计 | 70 | 130 | 200 |
2.H:两疗法的总体病死率相同,即π1=π2
H1:两疗法的总体病死率不同,即π1≠π2
α=0.05
3.求理论频数
抗凝血组:
死亡人数为75×35.0%=26.25人
存活人数为75-26.25=48.75人
对照组:
死亡人数为125×35.0%=43.75人
存活人数为125-43.75=81.25人
把理论频数填入相对应的实际频数格内,见表3.6括号内数字。
4.求χ2值 将表3.6里的数值代入式(3.5)得,

5.求自由度,确定P值,作结论
ν=(2-1)(2-1)=1,χ20.05(1)=3.84,χ20.01(1)=6.63,
本例χ2=4.929,χ20.05(1)0.01,在α=0.05水准处拒绝H,接受H1,即两总体病死率不等,对照组病死率较抗凝血组高。
上例告诉我们,两个样本病死率一大一小,在未作检验之前,很难说它们两总体率是否有差别,为了作出正确判断,作X2检验。先假设两总体病死率相同,推算理论频数,由实际频数与理论频数计算χ2值,二者相差越大,χ2值也越大。本例得χ2=4.929,根据自由度为1时的χ2分布推断,从同一总体内抽样,出现χ2值等于或大于4.929的概率较小,每一百次中在5次以下,1次以上,因此检验假设被拒绝,而判断为有显著差别。
(二)连续性校正公式χ2检验是以连续的光滑曲线做根据的,当自由度为1时,χ2检验所得的概率容易偏低,因些需要校正,校正后的χ2值比不校正的小一些,校正公式是:
(3.7)
公式中A-T前后两条直线是绝对值的符号。
将表3.5资料代入式(3.7)得:

检验两个率相差的显著性时(此时自由度为1),理论上都可用校正公式。但当用公式(3.5)求出的χ2值小于3.84时,相应的P值大于0.05,表示两个率相差不显著,校正后χ2值更小,仍得同样结构,就无须校正;当用未校正公式求出的χ2值远远超过3.84时,校正后的结论仍相同,在此种情况下也可不校正;当自由度为2及以上时,则不必校正。
当用公式(3.5)求出的χ2值略大于3.84时,校正最为必要,往往会改变原来的结论,举例如下。
例3.2表3.7是六六六粉的两种配方进行野外烟剂灭黄鼠实验的观察结果。
表3.7 六六六粉两种配方灭黄鼠的效果
| 烟薰后鼠洞情况 | 合 计(实验观察洞数) | 灭洞率(%) | ||
| 未盗开 | 盗 开 | |||
| 04号配方 | 13(16.63) | 9(5.37) | 22 | 59.1 |
| 05号配方 | 80(76.37) | 21(24.63) | 101 | 79.2 |
| 总 计 | 93 | 30 | 123 | 75.6 |
现用公式(3.5)及式(3.6)分别计算χ2值如下:

校正后的χ2值小于3.84,P>0.05,在α=0.05的水准处接受H,认为两种配方灭黄鼠效果无显著差异,这相结论是比较合理的,如果不经校正就会得出错误的结论。
(三)四格表中求χ2的专用公式用上述基本公式(3.5)求χ2值,需要求出与实际频数一一对应的理论频数,运算较繁。在四格表中,用下列专用公式较为简便。
(3.8)
式中a、b、c、d为四格表中的实际频数,N表示总例数(即N=a+b+c+d)。
现仍以表3.5资料为例,先写成四格表形式,如表3.8。
表3.8 四格表求χ2值专用公式的符号
| 死 亡 | 生存 | 合 计 | |
| 抗凝血组 | 19(a) | 56(b) | 75(a+b) |
| 对照组 | 51(c) | 74(d) | 125(c+d) |
| 70(a+c) | 130(b+d) | 200(N) |
将实际频数代入式(3.8)得,

这里用专用公式求得的χ2值与前面用基本公式求得的结果完全不同,有时这两个公式求得的结果小数点后几位可能稍有出入,这是由于受小数四舍五入的影响。
前面已介绍了连续性校正公式(3.7),为使运算更为简便,下面列出专用公式的连续性校正公式(3.9),并以表3.8资料代入计算如下:
(3.9)
所得结果与式(3.7)求得的一致。
(一)2×K表的专用公式,前面已讨论了,两个率的比较用四格表专用公式计算χ2值较为简便。如果是多个率比较,就要列成2×K表。这里的K暂为所比较的组数,2为每个组内所划分的类型数。求χ2值时本可用基本公式计算,但以用下列专用公式为便:
(3.10) (3.11)
表3.9 2×K表形式之一
| a1 a2 ┆ ┆ | b1 b2 ┆ ┆ | n1 n2 ┆ ┆ |
| ∑ai | ∑bi | N |
公式中符号的意义参阅表3.9,以上两个公式的计算结果是完全一样的。
例3.3 某地观察磺胺三甲氧吡嗪加增效剂(吡嗪磺合剂)预防疟疾复发的效果,用已知有抗疟疾复发效果的乙胺嘧啶和不投药组作对照,比较三组的疟疾复发率,资料如表3.10,问三组复发率有无显著差别?
表3.10 三个组的疟疾复发率
| 组 别 | 观察例数 | 复发例数 | 复发率(%) |
| 吡嗪磺合剂 乙胺嘧啶 对 照 | 1996 473 484 | 76 27 53 | 3.81 5.71 10.95 |
| 合 计 | 2953 | 156 | 5.28 |
χ2检验步骤如下:
1.将表3.10资料写成2×K表形式,见表3.11。注意:这里必须把各组的观察例数分为复发和未复发两部分,这样表3.10就为写成2×3表。
表3.11 三个组疟疾复发率的比较
| 复发 | 未复发 | 合 计 | |
| 吡嗪磺合剂 | 76 | 1920 | 1996 |
| 乙胺嘧啶 | 27 | 446 | 473 |
| 对 照 | 53 | 431 | 484 |
| 合 计 | 156 | 2797 | 2953 |
2.H:三个总体复发率相同
H1:三个总体复发率不全相同
α=0.05
3.求χ2值 将表3.11的数值代入式(3.10)(因为在表3.11中,各组的a值较小,计算较方便)得:

4.求自由度,确定P值,作结论
ν=(K-1)(2-1)=(3-1)(2-1)=2,查χ2值表得χ20.01(2)=9.21,本例χ2=39.92>χ20.01(2),P0.05
R0.05≥R>R0.01时 0.05≥P>0.01
P≤R0.01时 P≤0.01
例10.4 请以表10.2资料用本法处理之。
表10.4 九名健康人与八名铅作业工人的尿铅值(mg/L)
| 健康人 | 秩号 | 铅作业工人 | 秩号 |
| 0.001 | 1 | 0.042 | 8 |
| 0.002 | 2 | 0.042 | 8 |
| 0.014 | 3 | 0.048 | 10 |
| 0.020 | 4 | 0.050 | 11 |
| 0.032 | 5 | 0.082 | 14 |
| 0.032 | 6 | 0.086 | 15 |
| 0.042 | 8 | 0.092 | 16 |
| 0.054 | 12 | 0.098 | 17 |
| 0.064 | 13 | ||
| n2=9 | 54 | n1=8 | R=99 |
先将本表10.2中两组数据各自排队并统一编秩号,结果见表10.4。
较小样本为铅作业工人组,n1=8,R=99,代入式(10.6)
R'=8(8+9+1)-99=45
R与R'两者中以R'较小,故以P'值与附表13数值比较,得R0.05=51,R0.01=45;今R'=R0.01,故P=0.01,在α=0.05水平上拒绝H,接受H1,差别显著,故铅作业工人尿铅值比健康人高。
计算法步骤:
两组资料比较时,也可用计算法。用计算法时,对两组数据各自排队、统一编秩号同查表法,不同的是求得秩号之和以后计算,公式是:
u0.05=1.96u0.01=2.58 (10.7)
为便于计算和前后符号一致,n1作为较小样本例数,R为较小样本的秩和,n2则为较大样本的例数。
本例n1=8,R=99,n2=9代入公式得:

今∣u∣>u0.01,故Pu0.01,故P3),查χ2值表,ν=4-1=3,得χ20.05,3=7.81,χ20.01,3=11.34,今H>χ20.01,3,故P4或t=4且b>5或t=3且b>9时,H值的分布近于自由度ν=t-1时的χ2分布,故可查相应的χ2值与H值比较作出判断:如t、b不能满足上述条件,则所算得的H值与χ2分布有较大偏离,需查附表15作判断。
例10.7 受试者5人,每人穿四种不同的防护服时的脉搏数如表10.7,问四种防护服对脉搏的影响有无显著差别?又五个受试者的脉搏数有无显著差别?
表10.7 比较穿四种防护服时的脉搏数(次/分)
| 受试者 | 防护服A | 防护服B | 防护服C | 防护服D | ||||
| 编 号 | 脉搏 | 秩号 | 脉搏 | 秩号 | 秩号 | 秩号 | 脉搏 | 秩号 |
| 1 | 144.4 | 4 | 143.0 | 3 | 133.4 | 1 | 142.8 | 2 |
| 2 | 116.2 | 2 | 119.2 | 4 | 118.0 | 3 | 110.8 | 1 |
| 3 | 105.8 | 1 | 114.8 | 3 | 113.2 | 2 | 115.8 | 4 |
| 4 | 98.0 | 1 | 120.0 | 3 | 104.0 | 2 | 132.8 | 4 |
| 5 | 103.8 | 2 | 110.6 | 4 | 109.8 | 3 | 100.6 | 1 |
| 秩秩号和Ri | 10 | 17 | 11 | 12 | ||||
t=4b=5
排队、编秩号、求各比较组的Ri见表10.7所示。
将表10.7中各数代入式10.9,得

本例t=4,b=5查附表15,得H0.05=7.80,今H>H0.05,故P>0.05,在α=0.05水准上接受H,无显著差别,故四种防护服对脉搏的影响无显著差别。
再比较五名受试者的脉搏数:
将数据列出(同表10.7),但秩号是按每种防护服中受试者脉搏的数值从小到大编定,然后求出各受试者秩号之和R1,详细见表10.8
表10.8 比较五名受试者的脉搏数
| 受试者 | 防护服A | 防护服B | 防护服C | 防护服D | Ri | ||||
| 编 号 | 脉搏 | 秩号 | 脉搏 | 秩号 | 脉搏 | 秩号 | 脉搏 | 秩号 | |
| 1 | 144.4 | 5 | 143.0 | 5 | 133.4 | 5 | 142.8 | 5 | 20 |
| 2 | 116.2 | 4 | 119.2 | 3 | 118.0 | 4 | 110.8 | 2 | 13 |
| 3 | 105.8 | 3 | 114.8 | 2 | 113.2 | 3 | 115.8 | 3 | 11 |
| 4 | 98.0 | 1 | 120.0 | 4 | 104.0 | 1 | 132.8 | 4 | 10 |
| 5 | 103.8 | 2 | 110.6 | 1 | 109.8 | 2 | 100.6 | 1 | 6 |
t=5b=4
将表10.8 所得各数据代入式10.9得

此处t>4,故查ν=5-1=4时的χ2值表,得:χ20.05,4=9.49,χ20.01,4=13.28,今χ20.05,40.01,在α=0.05水准上拒绝H,接受H1,差别显著;即五名受试者脉搏数相差显著,1号受试者最高,5号受试者最低。
当多组间的差别显着时,则需进一步判断那些组之间的差别有显着性,这个问题的解决方法与第八章第二节中的多个均数间的两两比较很相似,在例10.6四个实验组涂放射性锡的例子中,结果为H>χ20.01,3,P50时,秩相关系数显著性的界值与直线相关系数相近似,故可根据ν=n-2查附表11来作判断:当n≤50时,则查阅附表16。
例10.8 通过普查得到七个地区居民中单纯性甲状腺肿患者百分比与当地食物、水中的含磺量如表10.10右侧第一、第三两栏所列。问该两事物是否显著相关?
表10.10 单纯性甲状腺肿患者百分数
与当地食物水中含碘量的秩相关分析
| 含 碘 量 | 患者百分数 | 秩号差d | d2 | ||
| X1 | 秩号 | X2 | 秩号 | ||
| 71 | 1 | 16.9 | 7 | -6 | 36 |
| 81 | 2 | 4.4 | 6 | -4 | 16 |
| 126 | 3 | 2.5 | 5 | -2 | 4 |
| 154 | 4 | 0.8 | 3 | 1 | 1 |
| 155 | 5 | 1.1 | 4 | 1 | 1 |
| 178 | 6 | 0.6 | 2 | 4 | 16 |
| 201 | 7 | 0.2 | 1 | 6 | 36 |
n=7∑d2=110
将n,∑d2代入式10.11得:

本例n=7,查例表16,得r80.05,7=0.786,r8 0.01,7=0.929,今∣r8∣>r80.01,7故P