「人工智能」一文全览,ICLR 2020 上的知识图谱研究


「人工智能」一文全览,ICLR 2020 上的知识图谱研究
本文插图
雷锋网 AI 科技评论:ICLR 2020 正在进行 , 但总结笔记却相继出炉 。 我们曾对 ICLR 2020 上的图机器学习趋势进行介绍 , 本文考虑的主题为知识图谱 。
作者做波恩大学2018级博士生 Michael Galkin , 研究方向为知识图和对话人工智能 。 在AAAI 2020 举办之际 , 他也曾对发表在AAAI 2020上知识图谱相关的文章做了全方位的分析 , 具体可见「知识图谱@AAAI2020」 。
「人工智能」一文全览,ICLR 2020 上的知识图谱研究
本文插图
本文从五个角度 , 分别介绍了 ICLR 2020上知识图谱相关的 14 篇论文 。 五个角度分别为:
1)在复杂QA中利用知识图谱进行神经推理(Neural Reasoning for Complex QA with KGs)
2)知识图谱增强的语言模型(KG-augmented Language Models)
3)知识图谱嵌入:循序推理和归纳推理(KG Embeddings: Temporal and Inductive Inference)
4)用GNN做实体匹配(Entity Matching with GNNs)
5)角色扮演游戏中的知识图谱(Bonus: KGs in Text RPGs!)
话不多说 , 我们来看具体内容 。
注:文中涉及论文 , 可关注「AI科技评论」微信公众号 , 并后台回复「知识图谱@ICLR2020」打包下载 。
一、在复杂QA中利用知识图谱进行神经推理 今年ICLR2020中 , 在复杂QA和推理任务中看到越来越多的研究和数据集 , very good 。 去年我们只看到一系列关于multi-hop阅读理解数据集的工作 , 而今年则有大量论文致力于研究语义合成性(compositionality)和逻辑复杂性(logical complexity)——在这些方面 , 知识图谱能够帮上大忙 。
1、Measuring Compositional Generalization: A Comprehensive Method on Realistic Data 文章链接:https://openreview.net/pdf?id=SygcCnNKwr
Keysers等人研究了如何测量QA模型的成分泛化 , 即训练和测试 split 对同一组实体(广泛地来讲 , 逻辑原子)进行操作 , 但是这些原子的成分不同 。 作者设计了一个新的大型KGQA数据集 CFQ(组合式 Freebase 问题) , 其中包含约240k 个问题和35K SPARQL查询模式 。
「人工智能」一文全览,ICLR 2020 上的知识图谱研究
本文插图
Intuition behind the construction process of CFQ. Source: Google blog
这里比较有意思的观点包括:1)用EL Description Logic 来注释问题(在2005年前后 , DL的意思是Description Logic , 而不是Deep Learning );2)由于数据集指向语义解析 , 因此所有问题都链接到了Freebase ID(URI) , 因此您无需插入自己喜欢的实体链接系统(例如ElasticSearch) 。 于是模型就可以更专注于推断关系及其组成;3)问题可以具有多个级别的复杂性(主要对应于基本图模式的大小和SPARQL查询的过滤器) 。
作者将LSTM和Transformers基线应用到该任务 , 发现它们都没有遵循通用标准(并相应地建立训练/验证/测试拆分):准确性低于20%!对于KGQA爱好者来说 , 这是一个巨大的挑战 , 因此我们需要新的想法 。
2、Scalable Neural Methods for Reasoning With a Symbolic Knowledge Base文章链接:https://openreview.net/pdf?id=BJlguT4YPr
Cohen等人延续了神经查询语言(Neural Query Language , NQL)和可微分知识库议程的研究 , 并提出了一种在大规模知识库中进行神经推理的方法 。
作者引入了Reified KB 。 其中事实以稀疏矩阵(例如COO格式)表示 , 方式则是对事实进行编码需要六个整数和三个浮点数(比典型的200浮点KG嵌入要少得多) 。 然后 , 作者在适用于多跳推理的邻域上定义矩阵运算 。