这5种计算机视觉技术,刷新你的世界观( 三 )


3--目标跟踪

这5种计算机视觉技术,刷新你的世界观

文章插图
目标跟踪指的是在给定场景下跟踪特定感兴趣的一个或者多个目标。传统上,它应用在视频和现实世界的交互中,它们在初始目标检测之后进行观察 。现在,它对自动驾驶系统至关重要,例如优步和特斯拉等公司的自动驾驶车辆 。
目标跟踪方法可以根据观察模型分为两类:生成方法和判别方法 。生成方法使用生成模型来描述表观特征并最小化重建误差以搜索目标,例如PCA 。判别方法可用于区分目标和背景,其性能更加鲁棒,它逐渐成为跟踪的主要方法 。判别方法也称为检测跟踪,深度学习属于这一类 。为了通过检测实现跟踪,我们检测所有帧的候选目标,并使用深度学习从候选者中识别所需目标 。可以使用两种基本网络模型:栈式自动编码器(SAE)和卷积神经网络(CNN) 。
使用SAE跟踪任务的最流行的深度网络是深度学习跟踪器,它提出了离线预训练和在线微调网络 。这个过程是这样的:
离线无监督预训练使用大规模自然图像数据集的栈式去噪自动编码器以获得一般目标表示 。通过在输入图像中添加噪声并重建原始图像,栈式 去噪自动编码器可以获得更鲁棒的特征表达能力 。
将预训练网络的编码部分与分类器组合以获得分类网络,然后使用从初始帧获得的正样本和负样本来微调网络,这可以区分当前目标和背景 。DLT使用粒子滤波器作为运动模型来产生当前帧的候选补丁 。分类网络输出这些补丁的概率分数,表示其分类的置信度,然后选择这些补丁中最高的补丁作为目标 。
在模型更新中,DLT使用限制阈值的方式 。
这5种计算机视觉技术,刷新你的世界观

文章插图
由于其在图像分类和目标检测方面的优越性,CNN已成为计算机视觉和视觉跟踪的主流深度模型 。一般而言,大规模CNN既可以作为分类器也可以作为跟踪器进行训练 。2个代表性的基于CNN的跟踪算法是 完全卷积网络跟踪器(FCNT)和多域CNN (MD Net) 。
FCNT成功分析并利用VGG模型的特征图,这是一个经过预先训练的ImageNet,并产生以下观察结果:
CNN特征图可用于定位和跟踪 。
许多CNN特征图区分特定目标与其背景的任务是嘈杂的或不相关的 。
较高层捕获对象类别的语义概念,而较低层编码更多的判别特征以捕获类内变异 。
由于这些观察,FCNT设计了特征选择网络,以在VGG网络的conv4-3和conv5-3层上选择最相关的特征图 。然后,为了避免在噪声上过拟合,它还分别为两个层的选定特征图设计了额外的两个通道(称为SNet和GNet) 。GNet捕获目标的类别信息,而SNet将目标位置为中心的感兴趣区域(ROI) 。最后,通过SNet和GNet,分类器获得两个预测热图,并且跟踪器根据是否存在干扰者来决定将使用哪个热图来生成最终跟踪结果 。FCNT的流程如下所示 。
这5种计算机视觉技术,刷新你的世界观

文章插图
与FCNT的想法不同,MD Net使用视频的所有序列来跟踪其中的移动物体 。上述网络使用不相关的图像数据来减少跟踪数据的训练需求,这种想法与跟踪有一些偏差 。此视频中一个类的目标可以是另一个视频中的背景,因此MD Net提出了多域的概念,以独立区分每个域中的目标和背景 。域表示包含相同类型目标的一组视频 。
如下所示,MD Net分为两部分:共享层和特定域层的K分支 。每个分支包含一个具有softmax损失的二进制分类层,用于区分每个域中的目标和背景,以及共享层与所有域共享以确保一般性表示 。
这5种计算机视觉技术,刷新你的世界观

文章插图
近年来,深度学习研究人员尝试了不同的方法来适应视觉跟踪任务的特征 。他们已经探索了许多方向:应用其他网络模型,如递归神经网络和深度置信网络,设计网络结构以适应视频处理和端到端学习,优化过程,结构和参数,或者甚至将深度学习与传统的计算机视觉方法或语言处理和语音识别等其他领域的方法相结合 。
4--语义分割
这5种计算机视觉技术,刷新你的世界观

文章插图
计算机视觉的核心是分割过程 ,它将整个图像分成像素组,然后可以对其进行标记和分类 。特别是,语义分割试图在语义上理解图像中每个像素的作用(例如,它是汽车,摩托车还是其它类型的类?) 。例如,在上图中,除了识别人,道路,汽车,树木等之外,我们还必须描绘每个物体的边界 。因此,与分类不同,我们需要从模型中进行密集的逐像素预测 。