|戴国晨专栏 | 塔勒布量化开篇之作《肥尾分布的统计效应》(下)( 六 )


2)假设H处为帕累托尾部的吸收态 , 超出H的概率通过狄拉克函数的形式加到H点
这两种方式在计算时由于概率密度的跃变 , 并不适用于极值理论 。 这里提出第三种方式——通过无界的中间分布实现概率密度的连续 , 并求解条件均值 。 假设随机变量Z满足:
|戴国晨专栏 | 塔勒布量化开篇之作《肥尾分布的统计效应》(下)
本文插图

|戴国晨专栏 | 塔勒布量化开篇之作《肥尾分布的统计效应》(下)
本文插图

|戴国晨专栏 | 塔勒布量化开篇之作《肥尾分布的统计效应》(下)
本文插图
大规模战争和动乱的尾部概率
在人类历史上 , 战争和动乱是造成大量人员伤亡的主要因素 。 传统和战争相关的的统计分析主要聚焦于优化不完善和不可靠的数据集 。 这里开辟一个新的视角 , 通过极值理论观察历史上战争造成人员死亡的分布 , 并按照有界帕累托分布 , 通过截断尾部的形式估计伤亡均值 , 战乱事件发生的周期和相关性 。 通过该研究尝试回答一个问题:随着历史的发展 , 战乱的发生概率或伤亡规模是否有降低的趋势?
在研究中 , 我们主要着眼于造成五万人以上死亡的战乱事件(按今天的人口规模估算 , 在18世纪约等于五千人) , 通过统计分析可以得到以下结论:
战乱的风险并没有降低 , 在伤亡方面以分布估算的均值高于历史均值 , 我们有可能低估了未来战争的危险性
战乱的周期符合无记忆性的到达模型 , 并没有随着历史发展降低频率
由于全球人口随着时间不断增长 , 为了保证可比性我们分别对原始数据和尺度重整数据做统计研究 , 其结论并无很大不同 。 在战乱事件的定义上 , 由于“战乱”概念本身比较模糊 , 不同类型的战乱可能在同一时期重叠 , 也可能一个战乱横跨几个时期 , 伴随着饥荒瘟疫等因素 。 我们这里将超过25年的战乱拆解开来 , 比如蒙古当年在亚欧大陆的入侵 , 持续了125年以上 , 在多个地方有着不同的记载 , 因此被拆解为了12到55个不同的事件 。 原始数据中最大的死亡人数出现在二战时期(7000-8000万) , 而尺度调整后死亡人数最大的是中国唐朝的安史之乱(历史死亡人数1000-2000万) 。
|戴国晨专栏 | 塔勒布量化开篇之作《肥尾分布的统计效应》(下)
本文插图
另外 , 对已发生战乱的分布进行统计存在生存偏差 , 我们得以生存的前提是尚未发生过毁灭整个人类的超大型战乱 , 随着人类掌握核武器等破坏性科技 , 这一极端风险也日益升高 。

|戴国晨专栏 | 塔勒布量化开篇之作《肥尾分布的统计效应》(下)
本文插图

|戴国晨专栏 | 塔勒布量化开篇之作《肥尾分布的统计效应》(下)