产业气象站|GAITC专题论坛丨杨易:训练机器自主学习提高检测效率( 二 )


另外一个问题 , 我们在做视频研究的时候遇到了一个很大的问题 , 现在大家标注的视频很多都是与场景相关的视频 , 大家标注的比较多 , 真正我们做动作识别 , 很多时候其实做的是场景识别 , 不是真正的时序建模 。 在我们做动作识别的时候 , 什么动作识别得好呢 , 是游泳 , 打篮球这类的运动 , 为什么这类识别得好呢?因为游泳我们只要识别游泳池我就知道是游泳了 , 打篮球我只要识别篮球场 , 就知道是在打篮球 。
所以很多时候 , 我们视频分析里面做得好的这些动作还是和场景相关的 , 但是真正有动作的 , 比如说这是举手还是把手放下来 , 我是站起来 , 还是坐下 , 中间的状态 , 时序建模现在做的是不太好的 。 一方面是因为数据库非常少 , 现在有一个专门讲物体和人的交互的数据集 , 人的时序建模的数据现在有一些了 , 但是还是非常少 。
现在的深度学习静态的识别已经很好了 , 我们再进一步是给网络规模的视频做分析 , 我认为最大的一个挑战是效率的问题 。 实际上图像为什么快 , 一方面是因为它是没有时间特征的 , 我们计算机做时序建模是非常耗费资源的 。 另外因为一分钟视频就有上百帧 , 所以视频帧数本来就很大 。
另外还有一个效率的问题 , 我们标注视频的效率也很低 , 如果人 , 比如我看到这个的时候 , 这是一个会场 , 我一下子就标记出来了 , 但是如果给大家一个一小时的视频 , 我让你标出来什么时候人在跑 , 什么时候人在吃东西 , 什么时候人在切割 。 那么我标注视频的标注量也是非常大的 。 而且我在大量的视频中找相关的视频 , 比如说在100段视频中找人在切黄瓜的视频就是非常困难的 。
所以整个来说 , 我觉得一方面是计算机计算的效率要提高 , 另一方面我们标注的效率也要提高 , 我大概主要是围绕效率问题在讲 。
第一个我在讲怎么样提高视频的标注效率 , 视频有一个很重要的应用 , 我要把它定位出来 , 一个是空间定位 , 这有车 , 另外一个是时间定位 , 比如说我知道这一段视频有一个小松鼠 , 我知道它什么时候在进食 , 其实这个视频可能总共有10分钟或者20分钟 , 但是只有几帧是在进食 。 大家可以想像 , 如果我是一个动物学家 , 要看它的生活习性 , 看动物是怎么吃东西的 , 可能我就是对这一部分感兴趣 , 定位实际上是比较复杂 。 我要在很长的视频里面 , 把这个定位出来 , 计算量是非常大的 。
【产业气象站|GAITC专题论坛丨杨易:训练机器自主学习提高检测效率】不仅计算量是很大的 , 人要标注的也很多 。 传统方法下的视频定位操作是比较多的 。 人工做视频 , 每一段视频 , 小松鼠什么时候开始吃 , 什么时候完成吃 , 把这一段都要标出来 , 这个标注工程的工作量是非常大的 。
因此大家就提出了弱监督做定位 , 我有一段视频可能有10分钟 , 我知道这里面至少有一段视频是小动物在吃东西 , 那么在这种情况下 , 这段视频有小东西在吃东西的镜头 , 但是可能10分钟长的视频只有5秒在吃东西 , 这种效果虽然标注很快 。
这是我们今年和Facebook合作的一个工作 , 我们能不能这样做 , 这段视频 , 我标注它有小动物在吃东西 , 但是我不用标注它的起始帧和结束帧 , 我在浏览这个视频的时候 , 我发现这一帧它在吃东西 , 我只标一帧 , 我鼠标点一下就好了 , 这个时候我在视频中标注一帧 , 这样计算机基于单帧标注可以逐渐的扩展信息 。 其实这个东西Facebook最早想做这样的的概念 , 但是我们把这个东西做完之后 , 他们产品部门去研究 , 说这个技术是可行的 , 现在可能是在往产品里面加入 。
这是我们研究的一个过程 , 简单来说其实就是这样的 , 我标了一帧之后 , 我通过单帧监督的数据不断的扩展 , 往两边扩展 , 在时间轴上不断的扩展 , 通过内容分析 , 可能这些都是进食的帧 , 或者相关的帧 , 然后把这个例子自动的照出来再不断的扩展 , 这是一个迭代的过程 。