深度学习在机器视觉中的运用

深度学习在机器视觉中的运用】原标题:深度学习在机器视觉中的运用
现阶段 , 深度学习早已在人工智能的多个应用领域如图像分类、语音识别、自然语言理解等取得了突破性的进展 。 深度学习因为其优异的效果 , 也引起了工业界的广泛的兴趣 , 以谷歌、脸谱、微软、百度等为代表的互联网企业已经成为了深度学习技术创新的重要的力量 。
如今 , 在某些场景中 , 通过深度学习技术训练的机器在识别图像时比人类更加好 , 比如说识别猫、识别血液中的癌细胞特征、识别MRI扫描图片中的肿瘤 。 谷歌AlphaGo学习围棋 , 它自己与自己不断下围棋并从这当中学习 。 深度学习还在图像恢复和超分辨率、图像质量评价、语义分割与解析、图像内容文本生成、医学图像分析等许多任务中取得了较传统方法更加好的结果 , 极大的推动了相互领域技术和方法的发展 。

深度学习在机器视觉中的运用
文章图片
现阶段的深度学习方法通常依赖大规模数据开展训练 。 但并不是所有的视觉问题都会有充足的训练样本 , 如特定的人或物体的检索 , 罕见物种的识别、医学图像中的稀有病例等 , 训练数据很有可能十分稀少或是收集大量样本的代价会非常大 。 这里相对应 , 人的视觉系统仅需要少许样本就可以识别类别 , 这好多程度是因为人可以复用在其他领域学习所得知识和经验 。 近些年小数据样本(Smalldataset)的学习越来越引起研究人员的关心 , 怎样利用小数据样本来开展有效的深度学习 , 是一个尚需解决的挑战性问题 。
深度卷积网络采用误差反向传播算法开展参数学习 , 这就要求训练数据有明确和丰富的监督信息 。 但在许多实际问题中 , 对图像开展详细、精确的标定极为耗时(如场景解析中的像素级标签、视频中精细的时空标定等);且 , 许多训练数据中监督信息缺失或监督信息包含噪声(如从互联网中收集的照片) 。 怎样利用弱监督、噪声监督、非监督统信息来训练深度网络 , 对利用大量标定不完全的数据具有重要的实际意义 。
深度神经网络通常规模巨大、参数众多 。 以AlexNet网络为例 , 虽说输入图像早已被缩小到224×224 , 但模型仍包含六千万的参数 。 这使得深度神经网络较难应用于计算和存储资源受限的场合如移动终端、嵌入式系统等 。 同时 , 也使得人们很难把高分辨率的图像直接作为深度网络的输入 。 怎样对复杂深度网络模型开展压缩和加速 , 降低运算和存储消耗 , 对解决深度学习方法资源受限的难题具有现实意义 。