清华大学刘知远:知识指导的自然语言处理
“语言是一块琥珀 , 许多珍贵和绝妙的思想一直安全地保存在里面 。 ”从人类诞生伊始 , 自然语言就承载着世世代代的智慧 , 积聚了无穷无尽的知识 。 这片深蕴宝藏的沃土吸引了众多满怀好奇的AI研究者 , 投入其中耕耘、开垦、发掘和重构 。
2020 年 9 月 25日 , 由中国科协主办 , 清华大学计算机科学与技术系、AI TIME 论道承办的《2020 中国科技峰会系列活动青年科学家沙龙——人工智能学术生态与产业创新》上 , 清华大学副教授刘知远所作的学术报告《知识指导的自然语言处理》 , 于深度学习时代另辟蹊径 , 阐释了语言知识和世界知识对于自然语言处理的重要价值 。
文章插图
刘知远 , 清华大学计算机系副教授、博士生导师 。 主要研究方向为表示学习、知识图谱和社会计算 。 2011年获得清华大学博士学位 , 已在ACL、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文60余篇 , Google Scholar统计引用超过6000次 。 曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖 , 入选中国科学青年人才托举工程、中国计算机学会青年学者提升计划 。 担任中文信息学会青年工作委员会执委、副主任 , 中文信息学会社会媒体处理专委会秘书长 , ACL、EMNLP、COLING、IJCNLP领域主席 。
文章插图
一、NLP研究需从语言自身特点出发
自然语言处理(Natural Language Processing, NLP) , 旨在让计算机掌握和运用人类语言 。 从词性标注、命名实体识别、指代消解、到语义和句法的依存分析 , NLP工作者们致力于从无结构的语音或文字序列中挖掘出结构化信息 。 恍如从一片混沌中寻找秩序 , 无论是语义还是句法结构的 , 都不简单 。
语言作为一个符号系统 , 包含多种不同粒度的语言单元 。 譬如中文的汉字、词、短语、句子、文档、直到文档互联构成的万维网 , 由下而上 , 粒度不断加粗 。
而自然语言处理的很多任务 , 都涉及对不同层级的语言单元的语义相关度计算 。 例如信息检索就是给定一个query或者短语 , 找出哪些文档和该短语的语义最相关 。 由于语言的粒度大小不一 , 这就给计算增加了复杂度 。
文章插图
幸运的是 , 我们可以通过深度学习分布式表示 , 建立多粒度的语言关联 。
深度学习是近十年内一场席卷AI界的技术革命 , 而深度学习在自然语言处理领域获得巨大成功的一个重要原因就是分布式表示 。 从词汇、词义、短语、实体到文档 , 深度学习把不同粒度的语言单元映射到统一的低维向量分布式表示空间 , 实现统一的隐式表示 , 有助于不同语言单位语义信息的融合与计算 。 这给NLP任务提供统一的表示基础 , 避免对不同任务设计不同的相似度计算方法 , 也能更好地解决大规模长尾分布数据稀疏的问题 。
文章插图
针对深度学习的分布式表示 , 2015年到2017年刘知远的实验室开展了不少相关工作 。 具体包括:把汉字和词结合进行统一表示、英文词义和中文词义的表示、短语的表示、实体和文档的表示等等 。
文章插图
二、融入语言知识库HowNet
尽管如今深度学习卓有成效 , 但自然语言处理尚未得到彻底解决 。 2015年Science刊登的一篇NLP综述中提到 , 尽管机器学习和深度学习已经成果丰硕 , 但要攻克真正的难题 , 包括语义、上下文、知识的建模 , 仍需更多研究和发现 。
- 华为云知识计算解决方案获首批“知识图谱产品认证证书”
- 企业|技术快速迭代倒逼知识产权“贴身”服务,上海首家AI商标品牌指导站入驻徐汇西岸
- 手机卡顿时,究竟是关机还是重启,这四点差异明显,看完涨知识了
- 原来微信长按2秒这么实用!能开启5个高级功能,涨知识了
- 你不知道的6个微信隐藏功能,个个超实用,学到就是涨知识
- iPhone自带的录音转文字功能,堪称会议记录神器,涨知识了
- 清华大学研究院出手!擦一次,持续24小时防雾,改变眼镜党体验
- 手机定位很简单,打开手机设置,立刻知道对方去过哪里,涨知识了
- 才发现微信隐藏的6个功能,各个都很实用,涨知识了
- 视频|好看视频宣布品牌升级:定位视频知识图谱