二项分布、泊松分布到底该如何近似计算?-张驰咨询
本文来自一位朋友的提问:“1.请问应该依据什么判断二项分布应该使用泊松作为极限分布还是使用正态分布呢?2.如果已经判断应该用泊松作为该二项分布的极限分布,是否还应判断此泊松分布是否应该极限于正态分布呢?如果不需再判断,那么应该在什么时候判断泊松分布是否极限于正态分布呢?”这个问题让我一下愣住了,文章中不是已经说了吗?为什么还有这样的问题?
绝大部分教科书在谈到问题1时,基本上都是这句话:当p很小,n很大,且np趋于常数时,可以用泊松分布来近似二项分布。但问题是p多小算很小,n多大算很大呢?这个问题很多教科书和教材没有给出说法。
好在现在有计算机,有软件,计算概率是个很轻松的事情,我们不妨来选几个参数来对比一下。
一般来说,p小于0.1叫很小,n大于100叫很大,我们可以选择np(=λ)为10、5、1三种常数时,n为100、200、400、800四种样本量来模拟对比,此时p应跟着样本量的增大而减小以保持np不变。
下表为np=10是二项分布与泊松分布的对比。概率非常小的时候,两种分布的偏差比较大,可以暂时不考虑,重点观察概率较大的部分是否存在较大的偏差。
表1:np=10二项分布与泊松分布对比
可以看到,随着样本量的增加,两种分布的偏差在减小。如果说样本量为100的时候偏差还不太能够接受,那么样本量达到200时,主要部分的偏差已经可以控制在5%以内了。如果你计算的x值比较靠近中间位置,用泊松分布就可以比较好地对二项分布近似了。n达到800(此时p=0.0125)时,偏差就非常小了。
下面两张表分别是np=5,np=1的对比,请自行判断。
综合这三张表可以看出,当n越大,两种分布的偏差越小,p越小,两种分布的偏差也越小。即使是p=0.1,n=100时,在概率较大的区域(6≤x≤15),两种分布的偏差也是可以接受的。当然如果你想保险一些,可以把n的界限选大一些,p的界限选小一些。
下面再谈第二个问题。几乎所有的教材上都是这么说的:二项分布当np和n(1-p)均大于或等于5时,泊松分布当λ≥20时,用正态分布可以很好地近似计算。
我们先看看二项分布的正态近似。用正态分布来近似,其均值为np,方差为np(1-p),下表列出了二项分布选择几种参数(n均为100)时与正态分布的对比。由于正态分布是连续分布,因此采用累积概率分布来计算,默认计算左侧的概率。
别被表中1千多万倍的偏差吓住了,这些概率都小到可以忽略不计了,偏差大一些对于近似计算来说无关紧要。我们要重点关注均值以及3σ以内的概率偏差。看看表中标红的部分,偏差不小,而且正态分布总是小于二项分布。下图更直观一些。
图1:二项分布与正态分布累积概率对比
这种情况是由于二项分布是离散数据分布,其分布曲线不是连续的,而正态分布曲线则是连续的。在下图中我们可以看到,一般取离散概率台阶的中点连线画出拟合的连续曲线,这样计算出来的左侧概率就小不少。
图2:概率分布拟合
为了解决这个问题,需要进行连续性校正(correction forcontinuity),计算左侧概率时x要加0.5。相反的,计算右侧概率时,x要减0.5。下表就是连续性校正后计算出的概率对比。
图3:连续性校正后二项分布与正态分布累积概率对比
经过连续性校正后,两种分布的概率值偏差变得很小了。当然如果np刚好等于5时,且p很小时,二项分布的对称性不是很好,见下图。此时用正态近似要小心一些。
图4:n=100,p=0.05二项分布与正态分布概率密度对比
如果np仍为5,但p值大一些,n小一些,如n取20,p取0.25,此时分布的对称性就要好一些。
图5:n=20,p=0.25二项分布与正态分布概率密度对比
下面我们在看看泊松分布的正态近似问题。此时正态分布的均值和方差都等于λ。取λ=20、25、30,我们看看近似的效果。(为了控制文章的篇幅,直接进行连续性校正)
用下图可以直观地看出,两种分布之间的差异已经很小了。
图6:λ=20,25,30时,泊松分布与正态分布对比
本文的分析帮助理清最熟悉的几个分布之间的关系,经典的说法其实是给出了最低的要求,但如果对精度要求较高,特别是在需要运用分布两端的概率时,建议不要运用近似方法。好在现在用软件计算概率非常方便,这也是技术进步给我们带来的好处。
当然有的时候计算精确概率的运算量巨大,比如列联表中Fisher精确检验,当样本量很大时,其计算量成指数级增长。此时用正态近似则可以大大节省计算量,而且精度也能得到保证。
有一点建议给大家,如果在假设检验时用正态近似计算出的p值与α值很接近,不妨再计算一下精确概率,以求获得更准确的结果。
古人云:“尽信书不如无书”,在看书时多问几个为什么,自己亲自动手验证一下,可以加深对内容的理解,将其变成自己的东西,这样也不容易遗忘。
《六西格玛、DFSS、精益六西格玛》内容每周定期更新内容,敬请关注!
张驰咨询提供精益六西格玛项目辅导、公开课培训、企业内训,绿带黑带培训及项目辅导咨询。
企业内训:人数控制在30人以内,讲解、讨论、游戏结合项目运作,财务收益承诺;
企业咨询:项目辅导+理论培训;具体详情可致电咨询!
张驰咨询公司官网:http://www.6sigmambb.cn(复制网址到浏览器打开)
温馨提示:六西格玛黑带培训上海、深圳、北京地区接受报名,详情致电咨询!
联系电话:17722597309;0755-86372259。邮箱:zxl@leansigma.com.cn; QQ交流群:295204379
11月开课计划:
公司地址:深圳市南山区南山大道1092号亿利达大厦2栋11楼11A13
公开课接受报名地区
河南、郑州、辽宁、沈阳、天津、烟台、广州、广东、东莞、深圳、惠州、江苏、苏州、浙江、常州、上海、安徽、无锡、南京、镇江、扬州、珠海、佛山、江门、中山、合肥、南通、杭州、宁波、嘉兴、台州、湖北、武汉、徐州、盐城、四川、重庆、湖南、贵阳等,全国各地都可报名参加,选择就近城市(上海、深圳、北京),其他城市开课需满足五人。
张驰咨询公司官网:①http://www.6sigmambb.net ②http://www.6sigmambb.cn
张驰热门推荐
学习六西格玛,哪些工具需要掌握?-张驰咨询
精益与六西格玛到底哪个更适合你的公司-张驰咨询
和我一起从零开始学习六西格玛(6sigma)第一课——张驰咨询
和我一起从零开始学习六西格玛(6sigma)第二课(6西格玛概论)——张驰咨询
世界三大质量大师:戴明、朱兰和克劳士比思想对比-张驰咨询
六西格玛设计(DFSS)特点与六西格玛设计未来之路-张驰咨询
六西格玛案例minitab(DOE)实例操作-张驰咨询
干货|黑带大师教你做一个完美的六西格玛项目!-张驰咨询
长按二维码识别关注
- 阿里自研分布式强一致关系型数据库——X-DB
- 最新!2018初级会计职称教材难度及考试分值分布!
- 嘉绒藏族酿酒的方法
- 武汉1000万人口分布图
- 治骨肿瘤要看中国实力!
- 股票鬼才阐述筹码分布识买卖,值得散户3分钟学习!
- 【动画练习】世界表层洋流的分布图
- 议程来了,上海天然气分布式能源考察
- 树种分布迁移研究取得新进展
- 肇庆市分布式光伏综合示范项目首期工程成功并网发电