【云悦科技】深度学习用于多模态语义学习简述

互联网用户所创造的“内容”正在迅猛增长 , 从不同渠道涌现的文本、图像和视频等不同类型的媒体数据以及用户信息更加紧密混合 。 它们正在以一种新的形式 , 更为形象综合地表达语义、主题和事件 。 针对当前媒体数据呈现出的特点进行深入研究已成为学术热点 , 多种类型媒体数据依赖共存 , 各种平台和应用的数据来源广泛 , 个体和群体参与数据产生的用户交互史无前例 。
谷歌的前任研究主管皮特·诺文(PerterNorvig)博士曾在2010年《自然》杂志上发表文章《2020愿景》(2020Visions) , 指出今后10年(2010-2020) , 文本、图像、视频等数据以及用户交互信息和各种传感器信息将混合在一起 , 从搜索角度看 , 搜索引擎对检索结果进行的是内容综合而非数据罗列 , 这也将是谷歌今后面临的巨大挑战 。 我国也同样重视“跨媒体”研究 , 国家科技部于2011年11月启动了973计划项目“面向公共安全的跨媒体计算理论与方法” , 对“跨媒体”的表达建模、语义学习、挖掘推理和搜索排序等核心问题开展了理论研究 。 目前 , 媒体计算需要重点解决的两个难点是消除“异构鸿沟”和“语义鸿沟 。
【云悦科技】深度学习用于多模态语义学习简述
文章图片
传统的媒体计算研究方法主要从手工构建的底层特征出发 , 利用机器学习方法填补异构鸿沟和语义鸿沟 。 与传统方法不同深度学习是通过将无监督逐层预训练与有监督微调(fine-tuning)有机结合 , 实现端到端方式的特征学习 。 其基本动机是构建多层网络来学习隐含在数据内部的关系 , 从而使学习得到的特征具有更强的表达力和泛化能力 。 在大规模数据上进行的实验表明:通过深度学习得到的特征表示在自然语言处理(词向量学习)、知识图谱构建、图像分类和语音识别等领域表现出良好的性能 。 例如谷歌研究组在2014年大规模视觉识别挑战赛(ImageNetLargeScaleVisualRecognitionChallenge , ILSⅤRC)中采用改进的卷积神经网络GoogLeNet , 将图像识别准确率提升到93.3%;基于区域的卷积神经网络(ConvolutionNeuralNetwork , CNN)在精细度语义理解上取得了显著进展;通过利用具有长短时记忆(LongShort-TermMemory , LSTM)特点的循环神经网络(recurrentneuralnetwork) , 学术界(斯坦福大学、加州大学伯克利分校和多伦多大学等)以及工业界(谷歌、微软和百度等)均开展了“自然语言描述图像内容和图文检索等相关研究 。
通常 , 在媒体语义理解过程中可获取不同类型的媒体数据 , 如:新闻报道包含了文字和文字对应的图像 , 视频包含了视觉和听觉信息 。 不同类型的媒体数据从不同侧面反映了高层语义 , 因此多模态语义学习需要对不同模态的信息进行整合 。 1976年 , 麦格克(McGurk)等人验证了人类对外界信息的认知是基于不同感官信息而形成的整体性理解 , 任何感官信息的缺乏或不准确 , 都将导致大脑对外界信息的理解产生偏差 , 这个现象被称为“McGurk现象” 。 McGurk现象揭示了大脑在进行感知时 , 不同感官会被无意识地自动结合在一起对信息进行处理 。 更为重要的是 , 后继的神经系统科学研究也表明 , 在大脑皮层的颞上沟和脑顶内沟等部位 , 不同感官信息的处理神经相互交融 , 人脑生理组织结构决定了其认知过程是对外界多种感官信息进行的融合处理 。 为了利用不同类型的媒体数据 , 传统基于浅层模型的多模态语义学习大多采用前期融合或后期融合方法:前期融合是将不同媒体特征混合在一起 , 在特征级上进行融合处理;后期融合是对不同媒体特征处理后 , 再通过线性加权等方法对结果进行融合 。
由于深度学习具有通过逐层抽象来形成良好特征的能力 , 因此可利用该方法来形成不同类型数据的联合特征表示 。 具体方法有深度典范相关分析(DeepCaconicalCorrelationAnalysis , DeepCCA)、多模态深度学习以及多模态玻尔兹曼机等 。 这些方法的基本思路是通过不同的深层模型(如CNN或Autoencoder等)对不同类型数据进行逐层学习 , 将学习得到的结果进行合并 , 以得到多模态联合特征表示 , 最后要求多模态联合特征能有效重建原始不同类型数据或表达相关语义概念 。 为了得到更好的深层模型 , 一般在深层模型的最顶端设计反映不同类型数据相互耦合的损失函数(如要求不同类型数据学习得到的特征相似等)来对模型进行优化反馈 。