《女士品茶》第24章


eth Scott)博士是较为杰出的,她与奈曼一起做研究,共同发表论文,范围从天文学到致癌物研究,甚至动物学。还有伊夫琳?菲克斯(Evelyn Fix)博士,她在流行病学的研究上有很重要的贡献。
直到费歇尔于1962年去世,奈曼一直受到这位天才的尖刻批评。奈曼每做一件事都会遭到费歇尔的批评。如果奈曼成功地证明出了费歇尔某项非常难解的叙述,费歇尔就说奈曼误解了他写的东西;要是奈曼扩充了费歇尔的某个观点,费歇尔就批评奈曼说他把好端端的理论用错了地方。对比,不论是付诸笔端,还是在私人场合,奈曼从不回应(如果我们相信奈曼同事的说法)。
在奈曼去世前的一次访谈中,奈曼说了一件发生在20世纪50年代的往事。当时他准备在一次国际研讨会上公开发开一篇用法语写的论文。当他步上讲台时,意识到费歇尔也坐在听众席上。在演讲论文时,他知道一场激辩难免,于是开始武装自己,他预计费歇尔会抓住论文里某个无关紧要的小地方,将论文和他本人攻击得体无完肤。奈曼讲完之后,等待听众提问,结果只有几个问题。费歇尔相当平和,一言未发。后来奈曼才知道,费歇尔不会讲法语。
第12章 置信诡计
当20世纪80年代出现了艾滋病(AIDS)这种传染病时,有若干问题需要回答。一旦传染源HIV(human immunodeficiency virus,即人体免疫缺损病毒)确定了,卫生官员需要知道有多少人受到感染,以便安排需要的资源来应付这种传染病。幸运的是,在此之前的20至30年所开发出来的流行病学 数学模型,在这里可派上用场。
从传染病的现代科学观点来看,某些个体病人接触到传染源,其中有些人会被传染,而在经过一段所谓的“潜伏期”之后,那些被传染的人会显现该疾病的症状。一旦被传染,这个人就会成为其他还没有被传染人的潜在传染源。我们没有办法预测谁会与传染源接触,谁会被传染,或谁会传染他人。我们所能做的,只是处理相关的概率分布,并估计这些分布的参数。
参数之一是平均潜伏期,也就是从被传染到症状产生的平均时间。就艾滋病这种传染病来说,平均潜伏期对卫生官员是特别重要的参数。他们没有办法知道究竟有多少人被传染,又有多少人最终会得上这种疾病,但如果能知道平均潜伏期,他们就能根据已经患有这种疾病的人数,估计出受感染的人数。不仅如此,由于艾滋病传染模式的不寻常特征,卫生官员拥有一组患者,并知道这组患者感染的时间和他们的发病时间。有一个小的血友病患者群体由于使用了被污染的血液制剂而感染上HIV,他们提供的数据可以用来估计平均潜伏期这一参数。
这个估计值的准确性如何?流行病学家可以说,他们使用的是费歇尔意义上的最佳估计量。因为他们所得的估计值是一致的,又是最有效的。他们甚至还可以修正可能的偏差,并宣称他们的估计值是无偏的。但是,如果我们在前面章节里指出的,我们没有办法知道某一个具体的估计是否正确。
如果我们不能够说某个估计值是绝对准确的,那么我们还有没有办法可以说这个估计值与参数的真值之间有多接近呢?这个问题的答案在于使用区间估计(interval estimate)。点估计(point estimate)是一个单一的数字。例如,我们可能利用从血友病研究那里得到的数据,估计出平均潜伏期是5。7年。而一个区间估计会这样表述:平均潜伏期在3。7年至12。4年之间。在很多情况下,有区间估计的数字就够了,因为所需要的公共政策对区间估计的两端边界值来说是一样的。但有些时候,区间估计值显得太宽了,对最小的边界值和最大的边界值需要制定不同的公共政策。根据一个很宽的区间估计值所能得出的结论是,利用已有的信息不足以做出充分的决策,应寻求更多的信息,可以通过扩大调查的范围或进行一系列其它的实验来得到。
举例来说,如果艾滋病的平均潜伏期长达12。4年,则感艾滋病毒的人当中约有五分之一的人在感染之后要存活20年以上;如果平均潜伏期是3。7年,那么几乎每一个被感染的人在20年内都会发病。这两个结果相差太大。没有任何一种最佳的公共政策可以兼顾,因此需要更多的信息。
在20世纪80年代末期,美国国家科学院(National Academy of Science)如今国内一批顶尖的科学家组成一个委员会,讨论臭氧层破洞的问题。臭氧层可保护人类不受紫外线辐射的伤害,但由于人类使用的喷雾剂中含氟氯碳化物,可能破坏外层空间的臭氧层。这个委员会(主席为约翰?图基(John Tukey),是本书第22章讨论的主角)不做是或否的二分法回答,而是决定以概率分布的形式建立氟氯碳化物对臭氧层的影响模型。于是,他们计算出了臭氧层每年平均变化的区间估计值。虽然使用的数据量不是很多,但他们发现,该估计区间的下边界值暗示,每年臭氧层将以一个较大的幅度减少,而这将使人类的生命在50年内受到严重的威胁。
区间估计现在已经普及到几乎所有的统计分析领域。当一项民意调查指出44%的一般民众认为总统干得不错时,通常会加上一个附注,说明这个数字“具有正负3个百分点的误差”。上述民意调查结果的意思是,44%被调查的民众认为总统干得不错。由于这是个随机的调查,所求的参数是全国所有的民众中认为总统干得不错的人数的百分比。由于样本的容量较小,因此一个合理的猜测是,总体的参数值应落在41%(44%-3%)与47%(44%+3%)之间。
怎样计算区间估计值?怎样解释一个敬意估计值的涵义?我们能对一个区间估计值做出相应的概率表述吗?我们有多大的把握确信总体参数的真值会落在所估计的区间里?
奈曼的解
1934年,耶日?奈曼在皇家统计学会做了一个演讲,题目是“论代表性方法的两个不同方面”(On the Two Different Aspects of the Pepersentative Method)。他的论文是关于抽样调查分析的。正如奈曼作品的一贯风格,这篇文章非常优美,导出了形式简单具直观易懂的数学表达式(当然是经过奈曼的推导之后才会如此)。但全文最重要的部分却在附录里,奈曼在这个附录中提出了一个很直接的方法,用来创建区间估计,并确定所得的区间估计值有多准确。奈曼称这个新的方法为“置信区间”(confidence intervals),而把置信区间的两端称为“置信界限”(confidence bounds)。
G?M?鲍利(G。 M。 Bowley)教授是大会的主席,起身致谢辞。他先用几段话讨论了论文的主要部分。接着就说到了附录:
我不太确定是否应该要求给出一个说明,或者直接提出质疑。论文的字里行间暗示,论文很难读懂,而我可能是被这个暗示误导的人之一(在这段话之后,他举出一个例子,表明他完全理解了奈曼提出的方法)。我只能说,从我一看到这篇论文开始,我就很认真地读它,而且昨天我还很仔细地读了奈曼博士对这篇论文的补充资料。我指的是奈曼博士的置信界限。我不太有把握地说,这里的“置信”是不是一个“置信诡计”。
鲍利接着举了一个例子说明奈曼的置信区间,然后继续说道:
这个方法真的会将我们引向深入吗?我们会比艾萨克?托德亨特(Isaac Todhunter,一位19世纪末的概率学家)知道的更多吗?它会让我们超越K?皮尔逊和埃奇沃思(Edgeworth,数理统计发展早期的先驱之一)吗?它真的会引领我们到我们所需要的地方去吗?就是说我们所从中抽取样本的总体其比重会正好落在这些界限内吗?我看并不见得,……我不知道我是否已把我的想法表达清楚了,……自从我看到这个方法,我就觉得它是个难题。其理论陈述没有说服力,除非有人能说服我,否则我还是怀疑它的有效性。
鲍利对置信区间这个新方法的疑惑,是自从置信界限的概念被提出来以后大家对它的普遍迷惑之一。显然,奈曼在推导其结果过程中所用的四行优美的微积分式子,在抽象的概率数学理论上是正确的。它也确实能算出一个概率值。但这个概率值究竟代表什么则并不清楚。数据是观测得来的,参数是固定的值(尽管是未知的),因此参数取某个特定值的概率只有两个结果,或者是100%(如果它就是那个值),或者是0(如果它根本不是那个值)。然而?
小说推荐
返回首页返回目录