机器之心@以点代物,同时执行目标检测和跟踪,这个新方法破解目标跟踪难题( 二 )


用点来跟踪目标简化了跟踪流程的两个关键部分:
第一 , 它简化了基于跟踪的检测 。 如果之前帧里每个目标都用一个简单点来表示 , 那么多个目标就可以用一个包含多个点的热图来表示 。 基于跟踪的检测器可以直接提取该热图 , 并在关联多个帧中的目标时对它们执行联合推理;
第二 , 基于点的跟踪简化了跨时间的目标关联 。 类似稀疏光流的简单位移预测就可以把不同帧中的目标连接起来 。 位移预测基于先前的检测结果 , 它能够联合检测当前帧中的目标 , 并将它们与先前的检测结果相关联 。
虽然整体想法很简单 , 但是要完成这项研究还需要很多细节 。 连续帧中的跟踪目标具备高度关联性 。 CenterTrack 把之前帧的热图作为输入 , 轻松学会重复之前帧的预测 , 从而在不会引起较大训练误差的情况下拒绝跟踪当前帧目标 。 研究者在训练阶段通过强大的数据增强方案来避免这种情况 。 事实上 , 数据增强方案足以让模型学会基于静态图像跟踪目标 。 也就是说 , 在没有实时视频输入的情况下 , CenterTrack 模型可以在静态图像数据集上成功训练 。
CenterTrack 是完全局部的方法 。 它只关联相邻帧中的目标 , 不会重新初始化已丢失的时间较远的跟踪 。 该方法舍弃了重新连接时间较远的跟踪 , 换来局部时间范围内跟踪的简单、高速和高准确率 。
实验表明这种交换是值得的 。 在 MOT [28] 和 KITTI [12] 跟踪基准测试中 , CenterTrack 的性能要优于复杂的检测-跟踪法 。 研究者进一步将该方法应用于 nuScenes 数据集 [3] , 执行单目 3D 目标跟踪 。 以 22 FPS 运行时 , 该单目跟踪器的性能达到了 28.3% AMOTA@0.2 , 是基线的 3 倍 。 此外 , 还可以在标注视频序列或使用数据增强后的静态图像上训练 CenterTrack 。
具体如何做?
在这篇论文中 , 研究者从局部的角度研究跟踪技术 。 也就是说 , 当目标离开画面或者被其他物体遮挡后再出现时 , 要被重新赋值新 id 。 研究者把跟踪看作一个跨连续帧传播检测 id 的问题 , 而不需要跨时间间隔重新建立关联 。
在时间 t 处 , 给定当前帧 I^(t) ∈ R^W×H×3 和前一帧 I^(t?1) ∈ R^W×H×3 的图像 , 以及前一帧中的跟踪目标 T^(t?1) = {b^(t?1)_0 , b^(t?1)_1 , . . .}i 。 每个目标被表示为 b = (p, s, w, id) , 其中中心点位置 p ∈ R^2 , 大小 s ∈ R^2 , 检测置信度 w ∈ [0, 1] , 唯一身份 id ∈ I 。 该研究旨在检测和跟踪当前帧 t 中的目标 T (t) = {b^(t)_0 , b^(t)_1 , . . .} , 并给在前后两个帧中都出现的同一目标分配一样的 id 。
这里存在两个主要问题 。 第一个是找到每一帧画面中所有的目标 , 包括被遮挡住的目标 。 第二是按时间关联这些目标 。 该研究通过一个端到端训练的深度网络解决了这两个难题 。
基于跟踪的检测
CenterNet 作为目标检测器 , 能够提供跟踪所需的大部分信息 , 包括目标位置 p-hat , 大小 s hat = S hat_p hat , 置信度 w hat = Y hat_p hat 。
然而 , 在当前帧中不直接可见的目标是无法被找到的 , 检测到的目标可能在时间上没有连贯性 。 提高时间连贯性的一种自然方式是添加之前帧中的图像作为检测器输入 。 在 CenterTrack 中 , 研究者向检测网络提供两个帧作为输入:当前帧 I^(t) 和前一个帧 I^(t?1) 。 这使得网络可以预估画面的变化 , 并且利用时间 t ? 1 处的可见目标恢复在时间 t 处被遮挡的物体 。
CenterTrack 还将先前的检测结果 {p^(t?1)_0 , p^(t?1)_1 , . . .} 作为额外输入 。 那么怎样表示这些检测结果才能将它们更容易地提供给检测网络呢?
踪片基于点的属性就派上用场了 。 由于每一个被检测目标都由单个点来表示 , 于是我们可以很方便地使用与基于点的探测器训练中相同的高斯渲染函数来渲染所有的检测结果 , 并呈现在一张类别无关的单通道热图 H^(t?1) = R({p^(t?1)_0 , p^(t?1)_1 , . . .}) 中 。 为了减小假正类检测结果的影响 , 研究者仅渲染置信度大于阈值 τ 的目标 。