遇见未知的自个儿:基于大数据的智能案件系统建设与应用( 二 )


(2)数据治理和转换
首先 , 对汇聚数据需进行脏数据的清洗和转换 , 其次 , 需检查数据一致性 , 并处理无效值和缺失值 , 对重复性数据进行去重、分组和聚合 。
【遇见未知的自个儿:基于大数据的智能案件系统建设与应用】(3)实时入库
系统的入库功能主要实现结构化与非结构化数据相分离的模式进行 。 在网络上将非结构化数据的存储、分析、结构化过程与结构化数据的应用、调取相分离 。 集群将结构化数据统一存储、处理后 , 传入公安网内 。 公安网对结构化数据进行应用 。 对于非结构化数据的应用需求 , 则通过调取的方式进行查阅 。 这样可以减少存储资源的浪费并能降低非结构化数据传输带来的网络带宽压力 。
(4)大数据检索服务集合
系统对外提供统一的符合标准的大数据检索接口集合 , 主要涵盖采集设备、采集设备状态、采集系统、采集系统状态、视频卡口、车道、机动车、非机动车、视频片段、图像、文件、人员、订阅、通知、联网服务器、系统时间、系统状态、时钟服务器、对象列表、应答状态、注册对象、保活对象、注销对象、应用平台对象、分析系统对象等 。
2. 基于大大数据的智能案事件系统建设
(1)基于大数据的标签系统
随着大数据系统中各类数据越来越多 , 需要一种有效手段将系统中的各类数据进行有效的关联分析 。 在现有条件下 , 只能实现对单一种类数据的检索、统计、分析 , 无法对多个种类的数据进行关联性搜索及分析 。 开发该系统的目的是串联各类数据 , 包括人、车、物、案事件、场景等 , 实现多种数据类型的关联检索及关联性分析等目标 。 该系统的主要功能包括:基于标签的多种数据类型快速检索、基于标签的智能联想、基于标签的数据分析等功能 。 标签系统分为三层设计:标签数据接入、标签数据业务、标签数据应用 。
标签数据接入数据来源为视图库中的数据 。 案事件数据主要有案件业务描述数据及线索数据组成 。 通过视图库对原始数据进行加工清洗 , 过滤掉无效、重复、异常数据 。 数据接入分布式消息队列增强数据吞吐能力及订阅分发能力 , 利用全文检索组件实现对标签的检索及服务 。 数据业务层主要是创建标签实例 。 按照案事件需求 , 将所需要的数据打上标签 。 本方案采用基于Cloudera的solrCloud存储标签 。 新增标签时 , 可以通过多值字段增加新的标签 , 也可以通过DynamicFileds增加新的标签类型 。 SolrCloud的引入 , 确保了大数据标签检索的实时性 。
数据应用层主要是由业务人员协助 , 聚合已有数据 , 构建标签系统应用场景 。 目前标签类型共分为两大类 。 一是自动标签 , 二是手动标签 。 自动标签是数据在Kafka集群上往solr标签存入时 , 结合案事件相关信息 , 自动将案件打上标签;手动标签是用户在Web页面上 , 将自定义的标签打入到案件上 。 标签应用的最基本的功能是标签的录入与展示;用户可以随时为一个案件打标签 , 每个案事件都会显示系统分配的标签 。 标签系统的检索是其重要功能 , 比如检索持刀抢劫标签 , 就会将案件类型是此类的相关案件检索出来 。 此功能得益于solr的快速索引与全文检索功能 。 同时 , 标签系统将案件重要属性打了标签之后 , 可以对案事件串并案提供有效的支撑 , 具体见下文中的案事件串并 。
(2)基于大数据的案事件自动串并系统
串并案是公安工作的重要组成部分 , 有助于提高破案率及节省人力物力 。 现有的串并案工作是通过人工的方式进行的 , 由于案事件的数量庞大 , 又缺乏有效手段进行多人协作 , 所以会存在信息缺失及效率低下的问题 。 从传统案事件串并案功能的实际情况看 , 使用频率不高 , 最根本的原因可能是该项工作耗时费力难以出成果 。
目前案事件信息已存储在视图库中 , 依托大数据分析手段.可对案事件信息从多个数据维度进行有效的关联性分析 , 实现自动化的案件串并及关联性分析 。 该系统的主要功能包括:案件自动串并、类案快速关联检索、类案统计分析等 。