伯克利&清华从GPT等预训练语言模型中无监督构建出知识图谱( 二 ) 作者|王晨光、刘潇采编|陈大鑫

如图2(a)所示，在第1步生成中（即图中的橙色箭头）， “is”被加入到当前生成的候选三元组中得到“(Dylan, is”：因为如图2(b)中所示，在从Dylan出发的注意力权重中（矩阵第一列）， is具有最大的注意力分数。当前候选匹配度变为0.3（即0+0.3）
文章插图
图2
在实际操作中，由于Transformer具有多头注意力，我们尝试了不同的注意力权重合并策略，并最后发现取多头平均注意力权重的效果最好（详情参考附录）。在第2步的生成中，我们采用相同的步骤，跳过了a生成了songwriter ，进而得到“(Dylan, is songwriter” 。候选的匹配度此时为0.7（即0.3+0.4）。
3. STOP（停止）：如果当前候选已到达尾部实体，那么我们将这整个三元组加入到集束中作为候选知识。当集束大小为1时， (Dylan, is, songwriter)就成为了唯一的结果。对应的最终匹配度为0.7 。
以上只是MATCH算法的一个简单例子，详情请参考原文。在实际的语句中，我们还会遇到知识以反向的形式存在的情况，如“… said Jason Forcier, a vice president at battery maker A123 Systems Inc.”，因此我们允许MATCH算法进行双向的搜索。集束的大小也不局限于1 ，在实际搜索中以宽度优先的方式进行，最后返回匹配程度最高的k条候选知识。这一集束搜索算法的时间复杂度是O(k·d) ，其中d为搜索深度。
二、MAP阶段：通过映射候选知识构建开放知识图谱
在获取原始的知识三元组后，需要进行适当的映射，与既有的知识图谱schema（如Wikidata）进行比对合并的同时，我们也对开放schema的结果进行保留整理，从而构建开放知识图谱。
我们获取的第一类知识是可以完全映射到既有知识图谱schema的知识。
利用专家构建的既有知识图谱，可以避免大量重复的实体与关系，也可以为进行自动结果评测打好基础。在这里，我们构建了简单的无监督的实体链接和关系映射方法，以最小的成本来实现这一目标：
实体链接方法：基于维基百科超链接和之前Crosswikis的结果，我们构造了大规模的mention-to-entity词典来进行实体链接。同时，语境信息也对实体链接具有重要的影响，因此我们简单地采用了的Glove词向量进行消歧，从而链接到含义相近的实体。
关系映射方法：本文基本采用了Stanford OpenIE中提出的共现方法来构造关系映射。具体来说，如果一对头尾实体在抽取结果和既有知识图谱中共现，我们认为他们的关系短语很有可能是相同含义的。实际中，我们对关系短语进行词形还原并移除停用词来构建这样的映射。构建完初步的共现结果后，我们人工筛选了候选映射较多的关系短语的前15个结果。同时，我们也仿照Stanford OpenIE对部分关系的实体类型进行了简单的限制。
第二类知识，属于开放schema的知识。
具体来说有两种：
第一种属于半映射的知识，即(h, r, t)中有至少一个可以映射到既有知识图谱的schema中，而这一类也是开放schema知识的主要组成部分；
第二种属于完全开放的知识，即(h, r, t)都完全无法映射到既有的schema中。
如此一来， MAMA构建的知识图谱既包含了既有知识图谱schema范畴内的知识，也包含了更加灵活开放的开放型知识，为下一代知识图谱的构建提供了参考方向。例如图3 ，是MAMA在Wikipedia的Bob Dylan词条及其邻居词条中抽取出的部分知识图谱。蓝色的点边代表第一类包含于既有schema内的知识，而黄色的点边则代表了开放schema中的新知识。
文章插图
图3
3 结果
为了近一步验证MAMA构建的知识图谱的质量，本文分别对两类生成的知识进行了评估。
对于能映射到当前知识图谱schema内的知识，本文定量地进行了自动化的评估；
对于开放schema的知识，本文通过采样进行了人工检查。
文章插图
表1
对于第一类可映射到既有schema内的知识，本文在两个大规模数据集上进行了评测。其一是经典的TAC Knowledge Base Population (KBP)的Slot Filling任务（本文选取2013年的数据），根据给定的实体和关系，在大规模文本中寻找填充答案。
但是， KBP标准答案的规模较小，无法很好地验证MAMA是否能在更大规模的数据上具有良好的扩展性，于是本文利用整个Wikidata和英文Wikipedia中的文本进行了评测。数据规模如表1所示。

伯克利&amp;清华从GPT等预训练语言模型中无监督构建出知识图谱( 二 )

伯克利&清华从GPT等预训练语言模型中无监督构建出知识图谱( 二 )