清华大学刘知远:知识指导的自然语言处理
“语言是一块琥珀 , 许多珍贵和绝妙的思想一直安全地保存在里面 。 ”从人类诞生伊始 , 自然语言就承载着世世代代的智慧 , 积聚了无穷无尽的知识 。 这片深蕴宝藏的沃土吸引了众多满怀好奇的AI研究者 , 投入其中耕耘、开垦、发掘和重构 。
2020 年 9 月 25日 , 由中国科协主办 , 清华大学计算机科学与技术系、AI TIME 论道承办的《2020 中国科技峰会系列活动青年科学家沙龙——人工智能学术生态与产业创新》上 , 清华大学副教授刘知远所作的学术报告《知识指导的自然语言处理》 , 于深度学习时代另辟蹊径 , 阐释了语言知识和世界知识对于自然语言处理的重要价值 。
文章插图
刘知远 , 清华大学计算机系副教授、博士生导师 。 主要研究方向为表示学习、知识图谱和社会计算 。 2011年获得清华大学博士学位 , 已在ACL、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文60余篇 , Google Scholar统计引用超过6000次 。 曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖 , 入选中国科学青年人才托举工程、中国计算机学会青年学者提升计划 。 担任中文信息学会青年工作委员会执委、副主任 , 中文信息学会社会媒体处理专委会秘书长 , ACL、EMNLP、COLING、IJCNLP领域主席 。
文章插图
一、NLP研究需从语言自身特点出发
自然语言处理(Natural Language Processing, NLP) , 旨在让计算机掌握和运用人类语言 。 从词性标注、命名实体识别、指代消解、到语义和句法的依存分析 , NLP工作者们致力于从无结构的语音或文字序列中挖掘出结构化信息 。 恍如从一片混沌中寻找秩序 , 无论是语义还是句法结构的 , 都不简单 。
语言作为一个符号系统 , 包含多种不同粒度的语言单元 。 譬如中文的汉字、词、短语、句子、文档、直到文档互联构成的万维网 , 由下而上 , 粒度不断加粗 。
而自然语言处理的很多任务 , 都涉及对不同层级的语言单元的语义相关度计算 。 例如信息检索就是给定一个query或者短语 , 找出哪些文档和该短语的语义最相关 。 由于语言的粒度大小不一 , 这就给计算增加了复杂度 。
文章插图
幸运的是 , 我们可以通过深度学习分布式表示 , 建立多粒度的语言关联 。
深度学习是近十年内一场席卷AI界的技术革命 , 而深度学习在自然语言处理领域获得巨大成功的一个重要原因就是分布式表示 。 从词汇、词义、短语、实体到文档 , 深度学习把不同粒度的语言单元映射到统一的低维向量分布式表示空间 , 实现统一的隐式表示 , 有助于不同语言单位语义信息的融合与计算 。 这给NLP任务提供统一的表示基础 , 避免对不同任务设计不同的相似度计算方法 , 也能更好地解决大规模长尾分布数据稀疏的问题 。
文章插图
针对深度学习的分布式表示 , 2015年到2017年刘知远的实验室开展了不少相关工作 。 具体包括:把汉字和词结合进行统一表示、英文词义和中文词义的表示、短语的表示、实体和文档的表示等等 。
文章插图
二、融入语言知识库HowNet
尽管如今深度学习卓有成效 , 但自然语言处理尚未得到彻底解决 。 2015年Science刊登的一篇NLP综述中提到 , 尽管机器学习和深度学习已经成果丰硕 , 但要攻克真正的难题 , 包括语义、上下文、知识的建模 , 仍需更多研究和发现 。
文章插图
这就涉及语言的另一个特点:一词多义现象 。 日常交流中 , 我们把词或汉字视为最小的使用单位 。 然而 , 这些并非最小的语义单元 , 词的背后还会有更细粒度的词义层次 , 比如“苹果”这个词至少有水果、公司产品这两种解释 。 那么词义(sense)是最小单元么?可能也不是 。
文章插图
语义最小单元:义原
语言学家指出可以对词义进行无限细分 , 找到一套语义“原子”来描述语言中的所有概念 。 这套原子称为义原(sememes) , 即语义的最小单元 。 例如 , “顶点”这个词可能有两个词义 , 每个词义用细粒度更小的义原来表示 。 如图 , 左边的词义是指某物的最高点 , 由四个义原的组合进行表示 。
- 快递|国家邮政局:推动邮政快递行业由劳动密集型向知识密集型发展
- 手机|原来微信一键就能拼接长图,朋友圈可发送几十张照片,涨知识了
- 双行合一|关于Word我们要了解的知识(12)
- 经济总量|美国经济总量世界第一,究竟是靠哪些产业支撑的呢?看完长知识了
- 电脑知识|北大青鸟:零基础学电脑从哪里入手
- 打击|莫让知识产权侵权“打击”了家电行业的创新积极性
- 为什么手机大厂们都喜欢搞子品牌?看完算长知识了
- 今天才发现,微信长按2秒,还有6个隐藏功能,涨知识了
- 学习大数据需要具备哪些基础知识,以及应该重视哪些环节
- 又爆新作!阿里甩出架构师进阶必备神仙笔记,底层知识全梳理