实时犯罪警报:且看深度学习如何保护你的安危
全文共3158字 , 预计学习时长8分钟
本文插图
图源:unsplash
在美国各大主要城市 , 市民一天24小时会切到数千个公共第一响应者无线电波 , 这些信息用于给500多万用户提供火灾、抢劫和失踪等突发事件的实时安全警报 。 每天人们收听音频的总时长会超过1000小时 , 这给需要开发新城市的公司带来了挑战 。
因此 , 我们构建了一个机器学习模型 , 它可以从音频中捕捉到重大安全事故的信息 。
本文插图
定制的软件适用无线电(SDR)会捕捉大范围内的无线电频率(RF) , 将优化后的音频片段发送到ML模型进行标记 。 标记后的片段会被发送至操作分析员 , 他们将在app中记录事件 , 最后通知事故地点附近的用户 。
本文插图
安全警报工作流程(图自作者)
为适应问题领域 , 调整一个公共语音转文本引擎
本文插图
运用公共语音转文本引擎的剪辑分类器 (图自作者)
依据单词错误率(WER) , 我们将从一个性能最好的语音转文本引擎着手 。 很多警察使用的特殊代码都不是白话 , 例如 , 纽约警察局官员会发送“信号13”来请求后备部队 。
我们使用语音上下文定制词汇表 。 为适应领域 , 我们还扩充了一些词汇 , 例如 , “assault”并不通俗 , 但常见于领域中 , 模型应检测出“assault”而不是“a salt” 。
调整参数之后 , 我们能够在一些城市获得相对准确的转录 。 接下来 , 我们要使用音频片段的转录数据 , 找出哪些与市民相关 。
基于转录和音频特征的二值分类器
我们建立了一个二进制分类问题的模型 , 其中转录作为输入 , 置信水平作为输出 , XGBoost算法为数据集提供了最好的性能 。
我们从一位前执法部门工作人员处了解到 , 在重大事件的无线电广播之前 , 一些城市会发出特殊警报音以引起当地警方的注意 。 这个“额外”的特征使我们的模型更加可靠 , 尤其是在转录出错的情况下 。 其他一些有用的特征是警察频道和传输ID 。
我们在操作流程中对ML模型进行了测试 。 运行了几天后 , 我们注意到在事件中 , 那些只使用带了模型标记的片段的分析员未出差错 。
我们在几个城市推出了这种模式 。 现在一个分析师可以同时处理多个城市的音频 , 这在以前是不可能的 。 随着投入运营的闲置产能增多 , 我们得以开发新的城市 。
本文插图
模型的推出显著减少了分析员的音频量(图自作者)
超越公共语音转文本引擎
这个模型并不是解决所有问题的灵丹妙药 , 我们只能在少数几个音质好的城市使用它 。 公共语音转文本引擎是按照声学剖面不同于收音机的音素模型训练的 , 因此 , 转录的质量有时是不可靠的 。 对于那些非常嘈杂的老式模拟系统来说 , 转录是完全不可用的 。
我们尝试了多个来源的多个模型 , 但没有一个是按照与数据集相似的声学剖面训练的 , 全都无法处理嘈杂的音频 。
我们试着用在保证管道其他部分不变的情况下由数据训练出的语音转文本引擎 , 替换原语音转文本引擎 。 然而 , 为了音频 , 我们需要几百小时的转录数据 , 而生成这些数据耗时耗财 。
我们还有个优化过程的选择 , 就是只抄写词汇表中定义为“重要”的单词 , 并为不相关的单词添加空格 , 但这仍然只是在逐步减少工作量而已 。 最后 , 我们决定为问题领域建立一个定制的语音处理管道 。
- 九江|凭空多出刑事犯罪记录,让儿子2次错失军人梦,九江警方:弄错了
- 解放军报|才起航就拉响警报!海军第三十六批护航编队时刻保持战备状态
- 公安部刑侦局|3名A级通缉令重大文物犯罪在逃人员被抓获 7人在逃
- 中国新闻网|3名公安部A级通缉令公开缉捕的重大文物犯罪在逃人员被抓获
- 中新网|3名公安部A级通缉令公开缉捕的重大文物犯罪在逃人员被抓
- 博弈|美国政府关门警报解除 两党继续博弈刺激法案
- 环球燃点|安理会也坐不住了!,空袭警报长鸣!叙利亚机场炸成废墟
- 3名公安部A级通缉令公开缉捕的重大文物犯罪在逃人员被抓获
- 遥不可及|DataForce组件技术及功能:数据批量和实时同步
- 3名公安部A级通缉令公开缉捕重大文物犯罪在逃人员被成功抓获