秃笃冢琑?T?贝叶斯在摆弄条件概率的公式时,忽然有个惊人的发现,这些公式都是内部对称的!
假设有两个事件在一段时期内发生,就像先洗牌,再发出5张扑克牌。我们称这两个事件分别为“前事件”(the events before)和“后事件”(the events after)。以“前事件”为条件讨论“后事件”的概率是有意义的。如果牌没有洗好,当然会影响玩家得到一对A的概率。贝叶斯发现,我们也可以“后事件”为条件计算“前事件”发生的概率。这是没有道理的。就像玩家已经拿到一对A之后,再来确定整副牌里有4张A的概率。或是已知一个病人已患了肺癌,再来计算他是吸烟者的概率。或者是已经知道了有个叫C?A?史密斯的人是唯一得到大奖的人,然后再计算州立彩票游戏公平不公平的概率。
贝叶斯把这些计算结果搁置起来,没有发表。在他死后,这些论文才被发现,而后才被发表出来。从那里起,贝叶斯定理 就困扰着许多统计分析数学家。绝对不是毫无道理,贝叶斯将条件概率倒转过来反倒很有意义。当流行病学家试图想找出某种罕见医学病状的可能原因时,例如雷氏症候群(Reye’s syndrome),他们通常是利用病例控制研究方法(casecontrol study),在这种研究中,他们首先搜集一组患有该病症的病人,然后拿去与控制组的病人做比较,控制组的病人没有患这种疾病,但在其他方面与患有这种疾病的病人类似。于是,流行病学家在已知控制组病人已患有该疾病的条件下,计算某些先前治疗或先前条件导致该病的概率。吸烟对心脏病和肺癌都有影响,就是这样首次被发现的。镇静剂对新生儿畸形的影响,也是从这种病例控制研究中发现的。
直接应用贝叶斯定理,可以把条件概率反转过来,比这更为重要的,是使用贝叶斯定理估计分布的参数。有一种建议,可以把一项分布的参数本身看作是随机的,然后计算与这些参数相关的概率。例如,我们可能想要比较两种癌症治疗方法,并希望得到结论说“我们有95%的把握认为使用治疗方法A会比使用治疗方法B的5年期存活率高”。我们只要应用贝叶斯定理一两次就可以解决这个问题。
关于“逆概率”的问题
有很多年,以这种方式使用贝叶斯定理被认为是一种不适当的作法。当用于参数时,关于概率代表什么涵义有很多质疑。毕竟皮尔逊革命(Pearsonian revolution)的整个基础在于,科学的测量结果本身不再是我们所感兴趣的问题,相反,正如K?皮尔逊所指出的那样,我们所感兴趣的是这些测量结果的概率分布,而科学的调查研究的目的就是要估计出控制这些分布的那些参数值(固定的但却是未知的)。所以,如果这些参数被视为是随机的(而且以观测的测量结果为条件),那么这种方法就不再有这样清楚的意义了。
在20世纪的早些年,统计学家非常谨慎,避免使用人们所说的“逆概率”。有一次在皇家统计学会上,对费歇尔的一篇早期论文进行讨论时,就有人质疑他使用了逆概率,他坚定地为自己辩护,否认这项可怕的指控。在第一篇关于置信区间的论文里,奈曼似乎使用了逆概率的概念,但只是作为一个数学方法,用来得到一个计算结果,而在他的第二篇论文里,他证明不了不用贝叶斯定理也能得到相同的结果。到了20世纪60年代,为种方法的潜在力量与用途已开始吸引越来越多的研究者跟踪研究,这个贝叶斯异论变得越来越受尊重了。到了20世纪末,它已经达到了如此高的接受水平,如今在一些期刊像《统计年报》(Annals of Statistics)和《生物统计》上,几乎半数以上的文章现在都使用贝叶斯方法。不过,贝叶斯方法的应用仍然会经常遭到质疑,尤其是在医学领域。
在解释贝叶斯异论时碰到的一个困难是,目前有好几种不同的分析方法,而这些方法的应用又至少有两种完全不同的哲学基础。长期以来,看上去好像完全不同的思想却经常贴着相同的标签——贝叶斯。后面我将说明贝叶斯异论的两个种理论:贝叶斯层次模型(Bayesian hierarchal model)和个人概率(personal probability)。
贝叶斯层次模型
20世纪70年代早期,由于弗雷德里克?莫斯特勒(Frederidck Mosteller)和大卫?华莱士(David Wallace)早期的工作和贡献,原文分析的统计方法有了很大的进展,他们俩人曾运用统计方法来判定《联邦主义论文集》(Federalist)中一些匿名文章的作者。自1787年,在纽约州带头鼓动通过新的美国宪法期间,詹姆士?麦迪逊(James Madison)、亚力山大?汉密尔顿(Alexander Hamilton)和约翰?杰伊(John Jay)写了大约70篇文章,支持通过宪法。但这些文章都是匿名发表的。19世纪初,汉密尔顿与麦迪逊两人开始确认这些两个人都声称有著作权的论文,其中有12篇文章他们都认为是自己写的 。
在用统计方法对这些署名有争议性的文章进行分析时,莫斯特勒与华莱士找出了几百个无“特定内容”的英文词汇,如“if”、“when”、“because”、“over”、“whilst”、“as”、“and”等。这些字在句子里只有语法上的意义,本身并没有什么特定的含义,这些字的使用主要取决于作者的语言使用习惯。在这上百个没什么特定含义的字里,他们发现,大约有30个字在这两位作者的其他著作中使用频率不同。
例如,麦迪逊使用“upon”这个字的频率,是每千字平均0。23次,但汉密尔顿对这个字的使用频率很高,平均每千字高达3。24次(在12篇署名有争议的文章里,有11篇根本没有用“upon”这个字,而在剩下的那一篇文章中,平均每千字就出现1。1次)。这些平均的频率并不是描述一千字中任何特定组合。这些数值本身并不是整数,这就意味着这些频率并不是在描述任意一个观测的文字序列。这些数值其实是两位不同作者在写作时用字分布的其中一个参数的估计值。
对于某篇文章著作权的争议,所要解决的问题是:这些文章中用词的分布形态,是来自与麦迪逊相联的概率分布呢?还是来自与汉密尔顿相联的概率分布?这些分布各有各有参数,其中能够定义出各自作品的特定参数各不相同。参数值只能根据他们的论文来估计,而且这些估计可能是错的。因此,要想区分哪个分布可应用在一篇署名有争议的文章上,充满了这种不确定性。
估计这种不确定性水平的一种方法是,这两个人的分布参数的确切值,是来自于描述18世纪晚期所有北美洲有教养的人用英文写作时用字习惯的参数分布。例如,汉密尔顿每千字中用到“in”这个字24次,麦迪逊则是每千字用23次,而同时代的其他作家,使用“in”这个字的频率在每千字22至25次之间。
由于受到当时和当地一般用字分布形态的制约,每个人分布的参数是随机的,并且具有一个概率分布。这样一来,制约汉密尔顿和玫迪逊使用这些无特定含义的字的参数本身也有参数,我们可以称之为“超参数”(hyperparameter)。根据当时和当地其他作者发表的文章来分析,我们就能估计出这些超参数。
英语语言总是随着时间和地域的变化而变化。例如在20世纪的英语文学里,使用in的频率通常是每千字少于20次,这表明从汉密尔顿和麦迪逊的时代到现在的200多年里,英语的用字型态已经稍微有所转变。我们可以把这些定义18世纪北美用字习惯参数分布的越参数,看作是它们本身也有一个相对于所有时间与空间的概率分布。因此,除了用18世纪的北美作品,我们还可以搜集其它地区和其它时期的英语文献,来估计这些超参数的参数,我们可以称这些参数为“超-超参数”(hyperhyperparameter)。
通过重复使用贝叶斯定理,我们就能决定这些参数的分布,然后再决定这些超参数的分布。从原则上来说,我们可以用超-超-超参数求出超-超参数的分布,进而把这种层次分析引向深入,依次类推。但在我们的例子里,显然没有必要进一步分析,以免增添更多的不确定性。利用超参数与超-超参数的估计值,莫斯特勒与华莱士就能算出与下面这个陈述有关的概率:是麦迪逊还是汉密尔顿写了这篇文章。
自20世纪80年代早期以来,贝叶斯层次模型已经成功地解决了许多工程上和生物学上的难题。比如,一些数据看
小说推荐
- 田园茶香之一品茶娘
- 作者:月莳萝】正文 第一章 苏家“娘,二姐醒了,你快来看”苏薇醒来时,第一眼就看到一个圆头圆脑的小男孩,大大的眼睛一眨不眨地盯着自己,看见自己醒了,欢呼着往屋外跑去。男孩身材瘦小,脑袋却是又大又圆,让苏薇想起小时候看过电影里的小萝卜头。小萝卜头穿着破旧的衣裳,那衣裳似乎是大人的衣服改小的,下摆长过膝
- 最新章:第139章
- 禁忌关系 by星静·茶叶·茶茶
- 星静/茶叶/茶茶甜蜜双人行电车上我的折翼天使重返人间+番外禁忌关系forum/msg/lovehuahua/m/5546.html禁忌关系 by星静/茶叶/茶茶“老爸啊~这里舒服吗“恩“那这里呢“唔“还是这里“恩呜“我说老爸啊~你怎么这么难搞啊?我伺候你半天了,你连一句舒服都没有,根本就是在藐视我的
- 最新章:第3章
- 一品茶美人
- 作者:月光码头文案:夏浅语的毕生目的是当好夏家家主,赚数不完的钱,谁妨碍她赚钱她砍死谁!她凭实力成为皇商,研茶道,开商路,通海道,一不小心成为全国首富,坐拥天下财富!景渊的毕生目的是娶个足够凶的娘子,能镇得住死在他手下的无数亡魂,再给他生一堆孩子。于是他们第一次见面时他道“宅斗商斗江湖斗,斗得好了就
- 最新章:第217章
- 重生亡灵圣骑士 作者:茶叶蛋
- *克小林《重生亡灵圣骑士》作者:茶叶蛋文案他,原本在地球活到十八岁,上有一老妈照着,平时也算遵纪守法,最多也就在001开心网上钓钓鱼,种种菜,养养鸡鹅牛羊,偷点鸡蛋什么的,竟然就这么穿越了,还是穿越到一个周围人长的都像骷髅的地方…话说回来…我牧场里养的熊猫仔还没收呢!难道是好友里暗暗的诅咒成功了?如
- 最新章:第74章
- 爱情如茶系列之菊花茶
- 《爱情如茶系列之菊花茶(出书版》作者:梨花烟雨【完结+番外】作者 梨花 插图 莯吉 出版社 龙马文化 ISSN 9789866349737 出版日期 2011/3/8 开本 32开简介:第一眼看到柳晖,林航就莫名的喜欢他。带点冷漠疏离感的干净秀气的柳晖,很容易就让人升腾起一股征服的欲望。林航是这么认
- 最新章:第25章
- 吾皇万岁_茶茶木
- 吾皇万岁作者:茶茶木文案一朝重生,过往错失的金大腿再度回到眼前,怎能不紧紧怀抱,奔小康!谷雨(狗腿笑:小妹甘为陛下抛头颅,洒热血,万死不辞!宁笙:这些就算了,侍寝,会么?双重生,日常甜宠,偶尔虐渣复仇,女主狗腿属性、技能点够够的,后期强大。PS:本文为伪兄妹梗,全程甜宠,智商下线,么么哒~坑品保证哟
- 最新章:第88章
- [茶药]重生沏茶师.
- 书名[茶药]重生沏茶师作者:路七酱、第一章 五月梅雨季节,被褥潮湿的似乎能挤出水来,她伸出手在床头摸了几把,将一件外套拖入被中 翻个身,顺利的将外套裹在身上,拉了拉衣领,将脑袋重新埋进了被子中 咚 临近破晓的空气突然传过来一阵肃穆浑厚的钟声【勤能补拙,占着这么一个身子,你都能混到如此程度,可见你“烂
- 最新章:第149章
- [茶药]重生沏茶师
- 作者:路七酱【由文、第一章五月梅雨季节,被褥潮湿的似乎能挤出水来,她伸出手在床头摸了几把,将一件外套拖入被中。翻个身,顺利的将外套裹在身上,拉了拉衣领,将脑袋重新埋进了被子中。咚—临近破晓的空气突然传过来一阵肃穆浑厚的钟声【勤能补拙,占着这么一个身子,你都能混到如此程度,可见你“烂泥扶不上墙,智商堪
- 最新章:第145章
- 一品术士
- 141780第1章 迷人的操作)万象城背靠钟鸣山脉,面朝恶鬼平原,乃是万象域的首府,城中的万象学院是万象域最著名的修炼学府。万象学院旁边的集市,一片熙熙攘攘的景象,行人摩肩擦踵,摊位遍地都是,卖灵兽材料,灵药灵丹灵符阵盘,术法模型构建心得的应有尽有。此外,还有各种卖美食的摊位,五颜六色的美食目不暇接
- 最新章:第184章