产业气象站|GAITC专题论坛丨杨易:训练机器自主学习提高检测效率

7月26日 , 由中国人工智能学会主办、新浪新闻联合浙江大学承办的2020全球人工智能技术大会(2020GAITC)“AI时代下的新媒体与社交娱乐”专题论坛拉开帷幕 , 新浪集团首席信息官、新浪AI媒体研究院院长王巍 , 浙江大学特聘教授 , 悉尼科技大学教授、百度研究院访问教授杨易共同担任论坛主席 。
浙江大学特聘教授 , 悉尼科技大学教授、百度访问教授杨易在本次专题论坛上 , 与来自业界、学术界的嘉宾们分享了《媒体的智能理解、分析与合成》 。
杨易认为 , 大规模网络视频智能分析面临许多挑战 , 如视频数据复杂度高 , 标注数据量少且标注过程缓慢等 。 如何利用无标注的海量网络视频协助视频特征学习 , 并提升模型性能是视频分析领域重要的研究问题 。
他提到 , 以前训练一个模型做一件事 , 现在更多的是让机器自主学习 , 培养机器的自我学习能力 。 不仅让机器学会做事 , 更要教会它怎么去学习 , 这是元学习的基本想法 。 比如 , 让机器学会怎么去做事 , 新的任务就很容易做自适应 。
产业气象站|GAITC专题论坛丨杨易:训练机器自主学习提高检测效率
文章图片
图注:浙江大学特聘教授、悉尼科技大学教授、百度研究院访问教授杨易作主题演讲 。
以下为杨易演讲实录 , 内容经编辑略有删减:
尊敬的李院士 , 新浪的王总 , 以及在场的各位嘉宾和网上观看今天会议的朋友们大家好!今天我的报告比较偏技术一点 , 因为视频在网络媒体传播里面是最重要的载体 , 而且今天李院士也讲了 , 跨媒体是人和设备 , 计算机交互最重要的一个载体 , 我觉得视频它有声音 , 也有文字的信息 , 可能还有视觉的信息 , 所以可能是最接近跨媒体信息的媒体类型 。
我今天给大家分享一下我们怎么样能够比较智能的去分析、理解和利用、推荐视频的内容 。 今天是娱乐论坛 , 其实在娱乐这个领域 , 我们用得场景视频还是比较多的 , 比如说体育运动类的视频 , 比如说社交媒体的视频 , 电影和电视里的视频 。 为什么我们要做视频的分析和理解?接下来我将用几个比较典型的应用展开论述 。
当我们在发布媒体内容的时候 , 我们希望对它做比较好的管理和分类 。 我们希望媒体对这个内容做推荐 , 我们也希望媒体对这个内容做审查 。 不管是在国外还是国内都有这种需求 , 在国外很多的时候有的人会通过媒体发一些极端主义的内容 , 所以我们无论是推荐 , 还是审查 , 还是组织、检索 , 都需要对视频的内容做比较智能的分析 。
实际上为什么视频分析是比较难的 , 因为视频的规模是非常大的 , 它和图像比起来 , 时间和空间的信息复杂度会很高 , 而且现在我们学术界用的数据相较于我们真实的网络视频和我们要处理的视频还是有一些差距的 。 比如说这个是我们在训练神经网络用得比较多的数据 , 但是这些数据可能是运动数据 , 可是我们真正遇到的数据是用户拍摄的数据 , 这些数据和我们学术界训练神经网络的数据有一定的鸿沟 。 另外 , 我们现在和图像比起来 , 我们可以训练一个相对比较好的神经网络来做图像的表达 。 但是视频数据我们可以访问到、标注好的数据规模非常小 , 而且视频数据又比图像数据更复杂 , 所以一方面我们的训练数据少 , 另一方面我们数据的内容又非常的复杂 , 所以在这种情况下 , 就使得训练一个很好的可用的神经网络变得非常有挑战性 。
我举个例子 , 我们对视频的理解其实是非常主观的 , 因为图像相对内容比较简单 , 所以我标注的时候比较容易 , 但是对于视频来说 , 主观性会造成很大的区别 , 标注有的时候不一致 。 可能这个小朋友玩的是小朋友的独轮车 , 这种也是自行车的一种 , 很多人就把它直接标注成了骑自行车 , 但是有的时候大人骑自行车 , 甚至骑一些电动车 , 也会被标注成骑自行车 , 所以这个时候 , 我们标注和现实是非常不统一的 。