伯克利&清华从GPT等预训练语言模型中无监督构建出知识图谱( 五 ) 作者|王晨光、刘潇采编|陈大鑫

11、AI科技评论：文中有说到用预训练语言模型生成的知识图谱可以发现传统知识图谱中不存在的知识，具体举一些例子？
作者：论文中Figure 3 ， Figure 17-32中黄色的结点和边代表部分传统知识图谱Wikidata中不存在的知识。 Figure 8-10代表了部分不存在于TAC KBP中的知识。 Figure 14-16代表了部分不存在于Wikidata中的知识。论文中从第13页开始的附录中提供了方法的更多细节和结果。
具体例子如：我们在图3中展示了基于文章中方法生成的知识图谱的一小部分。这部分展示了一些与传奇歌手诺贝尔文学奖获得者鲍勃·迪伦相关的知识。包含已经存在于现有Wikidata中的知识，例如，（鲍勃·迪伦，职业，歌手），（鲍勃·迪伦，获奖，格莱美终身成就奖），（鲍勃·迪伦，妻子，萨拉·朗兹）等。同时也含有现有知识图谱中不存在的知识，例如，（鲍勃·迪伦，曾居地，纳什维尔），（鲍勃·迪伦，音乐类型，民谣），（鲍勃·迪伦，巡回演出，感恩至死）。另外，文中方法生成的知识图谱中还包括了一些其他现有知识图谱中不存在的有趣的知识，例如，挪威冒险家索尔·海耶达尔是位无神论者，德国生物学家恩斯特·海克尔是名和平主义者和社会达尔文主义者，威尔士足球运动员内维尔·索撒尔也兼领队。
12、预训练语言模型生成的知识图谱相比传统构建的知识图谱有哪些优势和不足？该如何改进？
作者：优势主要是无监督。不足就是不存在于现有知识图谱中知识的评测问题。后续计划利用众包来加强对于新知识的评测。
13、预训练语言模型被很多人诟病缺乏知识理解能力，只是单纯的概率关联，你们构建的知识图谱会存在这样的问题吗？能否举例说明？如果存在这样的问题，要如何解决？
作者：我们提出的方法就是尽可能保证留在我们构建的知识图谱中的知识相对高质量。不过还是发现没有映射到现有知识图谱中的知识会出现一些没有太大信息量的知识，例如（He, made, breakthough）。
解决方法包括：使用更有力的生成算法，例如基于图神经网络的算法从而利用注意力权重矩阵中的结构化信息。当然也包括进一步增强Map算法，例如利用语言模型本身信息抽取更准确的实体、利用lifelong learning得到更鲁棒的关系映射等。
14、AI科技评论：很多人提出预训练语言模型的缺陷要结合知识图谱来弥补，您怎么看？
作者：语言模型和知识图谱可能在服务不同的应用时有各自的优势。例如做文本分类，语言模型因为其特征生成的优势，所以更具竞争力。但是在做逻辑推理等问题的时候，知识图谱这种更精确的知识表达，会更有优势。文章提出的方法可以看做是语言模型和知识图谱间的一座桥梁，可以用来理解和弥补各自在一些下游任务上的不足，并保有各自长处。当然如前面所说，提出的方法还有很大待改进的空间。
15、AI科技评论：最后，代码和知识图谱会开源吗，什么时候开源，后续围绕这项工作还会开展哪些研究？
作者：一定开源。后续研究会很丰富，包括
改进Match算法：如前面提到的使用图神经网络生成关系；
强化Map阶段：通过lifelong learning学习更好的知识映射；
强化评价体系：利用众包对不在既有知识图谱中的知识进行更大规模的标注和评价；
更好的知识图谱：利用更大的模型，例如GPT-3（如果开源的话），在更大的语料上，例如Common Crawl ，生成质量和数量都更进一步的知识图谱。
最后，作者团队特别说明，论文是基于一个假设：预训练语言模型和知识图谱本质上都是对于世界上知识的编码，形式不同。虽然文章进行了初步探索，但这个假设需要更多人参与进来一起进一步验证。
【伯克利&清华从GPT等预训练语言模型中无监督构建出知识图谱】我们期待这个假设成立，也期待着文章开头LeCun所说的预训练语言模型的诟病能得到一部分答案，至少，预训练语言模型能帮助无监督地构建出知识图谱了！
文章插图
文章插图

伯克利&amp;清华从GPT等预训练语言模型中无监督构建出知识图谱( 五 )

伯克利&清华从GPT等预训练语言模型中无监督构建出知识图谱( 五 )