伯克利&清华从GPT等预训练语言模型中无监督构建出知识图谱( 四 )


不同的是 , 我们尝试使用预训练语言模型中的知识构建知识图谱 , 最后生成的知识图谱包括已在现有知识图谱schema中的知识 , 以及不在现有知识图谱schema中的新知识 。
5、AI科技评论:这项工作做了多久?
作者:大概5个月时间 。 包括搭起整个系统、做到相对高效的数据处理、到运行算法、再到GPU到CPU的调度、最后再到利用数据库做测评 。 另外本算法实现用的PyTorch Transformers , 挺顺利也挺高效 。 相信大家用起来也会很顺手 。
6、AI科技评论:都试过哪些预训练模型,效果如何,实现上有哪些困难 , 耗费计算资源如何?
作者:BERT和GPT-2系列都用了 。 当然最想试GPT-3 , 可惜还没开源 。 遇到的困难是计算资源 , 因为我们需要在六百万的文本语料上运行目前公开的最大的预训练语言模型之一GPT-2_XL 。 最后还是老板Dawn Song帮助我们解决了这个问题 。 文章末尾的附录中也提到了 , 最后我们使用了20台4卡的K80 , 单卡12G显存 。
7、AI科技评论:从输入和输出的角度再谈一下本文的算法 , 另外算法还有改进空间吗?
作者:算法的输入是语料和预训练语言模型 , 输出是构建好的知识图谱 。
这次提出的方法算是一个将深度模型和知识图谱连接起来的初步尝试 , 当然可以从不同的方面继续改进 , 文中也提到了 , 例如:知识的高阶推理、利用图神经网络生成更准确的关系、提升实体识别的准确度、学习质量更高的关系映射等等 , 欢迎有兴趣的朋友邮件联系 。
8、AI科技评论:这项工作的价值在哪里?从理论和应用两方面来谈谈 。
作者:MAMA向我们展示了可能的下一代知识图谱的新形态 , 并对深度学习和知识图谱之间的连接有一定启示意义 。
理论价值:主要是深入的解释了深度预训练语言模型学到了什么 , 可解释地桥接起“预训练语言模型”和“知识图谱”两个研究社群 。
另外 , 揭示了深度预训练语言模型和知识图谱之间的关系 , 即他们本质上都是对于世界上相同知识的编码 , 只是编码形式不同 。 从文中初步实验结果上看 , 两者从知识的角度来说几乎可以等价 。 当然 , 本文提出的方法只是这一方向上的初步尝试 , 抛砖引玉 。
应用价值:一方面可以帮助深度学习研究者更好的理解模型所学 , 从而进一步帮助改进深度模型;另一方面为构建知识图谱或者做基于知识图谱应用的研究者提供新思路 , 例如 , 基于文章构建出的知识图谱包含了现有知识图谱中没有的知识 , 这些知识能否进一步帮助推理、问答等下游任务 。
9、AI科技评论:可解释方面 , 如何在深度学习和知识图谱之间建立起一座桥梁呢?团队对可解释性研究还有哪些感悟呢?
作者:深度语言模型参数量太大 , 本身确实很难解释 。 这个工作的目的就是初步提供一种形象的解释 , 通过知识的形式展现 。 如上面所说 , 预训练语言模型和知识图谱本质上或许都是对于世界上知识的编码 , 只是形式不同 。 但这个假设还需要进一步验证 , 我们的工作进行了初步的探索 。
可解释研究的下一步 , 我们觉得就是要找到一种基于合理假设的解释形式 , 例如知识图谱的形式 , 就是基于深度语言模型也是在编码知识这个假设 。 有了这个假设 , 呈现的解释结果更容易被人们理解 , 更能引导研究者进行针对性研究 。
10、AI科技评论:本文已经受到了一些关注 , 对一些收到的反馈有什么回应?
作者:首先感到非常幸运 , 非常感谢国内外同行对于工作的关注 , 关注的本身就是一种对于工作的认可 , 也有利于这个方向之后的长期发展 。 同时注意到大家比较关注本文跟LAMA的对比 , 不同很多 , 列举如下几点:
(1)研究的问题不同:LAMA是做填空题 , 即给定“Dylan is a _” , 预测“_”处应该填什么词 , 跟知识图谱无关 。
本文提的方法MAMA是做推断题 , 即给定一篇文章 , 直接生成一个三元组(Dylan, is, songwriter) , 然后映射到知识图谱中 , MAMA在尝试解决更难的问题 。
(2)数据集不同:本文中最大的数据集Wikidata比LAMA文章中最大数据集大三个数量级;
(3)本文提出的方法MAMA跟LAMA名字上的相似纯属巧合:他们的含义完全不同 , 本文MAMA是Match和Map的缩写 , LAMA是LAnguage Model Analysis的缩写 。
另外值得注意的是 , 该工作中我们提的方法是无监督学习 , 因为生成知识图谱的算法Match和Map都不需要训练数据 , 是通过一步前向传播完成的 , 无需微调或训练 。 事实上 , 在整个系统的构建中 , 除了使用少量人工定义的过滤规则、阈值以及开源工具 , 我们避免了人类进行任何直接的标注工作 。 无监督的方式可以与开放信息抽取系统的方法进行类比 , 例如开放信息抽取系统的抽取过程是无监督的 , 尽管抽取时使用到的规则是基于句法分析工具得来的 , 其中句法分析模型是基于有监督学习训练得来的 。