统计学有大用处,利用核密度估计法来进行警务大数据预测犯罪

核密度估计法是一种典型的非参数检验方法 。使用核密度估计法可以推导出分布奇特的函数表达式 。因此核密度可以被用于处理公共事务或经济领域的小众问题 。本小节将要介绍的大数据预测犯罪是一个最经典的现代公共事务案例,这个案例虽然并没有使用过于复杂的算法,但它确实成功解决了公共管理中的难题 。
《少数派报告》的现实版很久以前,作家们便创造出了为数众多的天才侦探,大侦探福尔摩斯只消看一眼犯罪现场,就能推断出受害者的身份和犯罪嫌疑人的大概特征 。后来,野心勃勃的剧作家不再局限于让侦探人物在犯罪发生后再去千里辑凶,转而创作出了《少数派报告》这种极富想象力的作品 。在《少数派报告》里,具有预言能力的少数派可以在犯罪还未发生时就预言出犯罪者的名字,警察便可以在犯罪者实施犯罪前将其逮捕 。

统计学有大用处,利用核密度估计法来进行警务大数据预测犯罪

文章插图
【统计学有大用处,利用核密度估计法来进行警务大数据预测犯罪】
电影《少数派报告》剧照
尽管科技的发展日新月异,但现代技术仍然没办法证实有什么人真的有预言未来的能力,《少数派报告》中的场景从而无法发生在真实世界中 。不过条条大路通罗马,在大数据的帮助下,警务犯罪预测系统同样可以帮助警察预测犯罪的发生,达到了和《少数派报告》所一致的效果 。
警务犯罪预测系统是由 George Mohler 教授开发的地震预测模型改造而来的 。George Mohler 教授发现地震预测模型可以在地震发生后很好的预测余震的发生,而预测犯罪发生的模式则与此惊人的吻合,即,某地区发生犯罪案件后,该预测模型可以很好地预测接下来发生犯罪的可能性与方式 。
纽约警察局把过去 80 年内的 130 万个犯罪纪录输入了这个由地震预测模型改造来的警务犯罪预测系统,并使用了包括每个街道上的人口、人群的流动方式、人脸识别在内的多种繁复数据,这些数据一起用于寻找每一条街道上的犯罪趋势和犯罪模式,实时分析城市数据源和社交网络数据,从而提示警察每个具体区域的犯罪概率,达到预测犯罪的效果 。除了能够预测犯罪以外,警务犯罪预测系统所收集的庞大数据同样有利于警察更快的破案 。
提示:这与好友推荐、智能翻译等商业应用所不同的是,警务犯罪预测系统所应用的数据量十分之庞大,想要处理这些数据必须借助于计算能力强大的超级计算机,此外,这些数据同样也可以应用于军事和情报机构等政府机构,而强大的技术支持和多方的需求都是催生警务犯罪预测系统的必要条件 。
洛杉矶警察局是最早应用犯罪预测系统的警察局之一,数据显示,该警察局已经能够利用大数据分析软件成功的把辖区里的盗窃犯罪降低了 33%,暴力犯罪降低了 21%,财产类犯罪降低了 12% 。如今的美国,从纽约到洛杉矶,许多警察局都在尝试使用这种方法来预测犯罪,维护治安 。意大利、法国等国家也在引进这种办法 。而我国首都警局在 2014 年的 APEC 会议期间,也尝试了使用大数据分析来维护治安 。大数据分析预测犯罪已成为世界性的趋势 。
核密度估计法和圣克鲁兹市的犯罪地图尽管警务预测系统所能达到的效果非常神奇,但其背后的统计学原理并不复杂 。其中最主要的统计原理就是核密度估计法 。
提示:核密度估计法是一种典型的非参数估计法 。使用核密度估计法估计数据样本的分布时,仅从数据样本本身入手,并不需要任何先验知识 。
在警务预测系统中,城市中不同街道的犯罪发生概率和周围环境有密切关系,将城市看做一张二维平面图的话,其每个地区的犯罪发生概率并不服从任何已知的分布,如正态分布、泊松分布等等,因此就不能参照任何已知表达式写出犯罪发生的概率密度,也不能为犯罪发生概率设定参数 。此时就需要核密度估计法来估计犯罪发生概率的表达式 。
图 1 画出了一个核密度估计的简单示例,在零到一的范围上随机产生 50 个数据,以 0.04 为宽度画出直方图 。由图可知,这五十个数据大多分布在靠近 1 的位置,在 0.5 的左边也有一些分布 。仅观察直方图,这样的一个数据基本分布不符合任何已知的分布 。因此考虑使用核密度估计法估计该分布的分布函数 。

统计学有大用处,利用核密度估计法来进行警务大数据预测犯罪

文章插图

图 1 核密度估计示意图
核密度估计法常用的公式如下: