伯克利&清华从GPT等预训练语言模型中无监督构建出知识图谱
文章插图
作者 | 王晨光、刘潇
采编 | 陈大鑫
近日 , 图灵奖得主、深度学习教父Yann LeCun在社交媒体发出警告 , 称“人们对GPT-3这样的大规模语言模型能做什么有着完全不切实际的期待 。 ”
文章插图
他还强调:
作为一个问答系统 , GPT-3不是很好 。 用“神经”联想记忆大量知识的方法在这方面做得更好 。
作为一个对话系统 , 它也不是很好 。 其他被明确训练过与人类互动的方法在这方面做得更好 。
事实或许如LeCun所说一样 , GPT-3对知识没有一个主动的掌握 。 其实 , 一说到知识就肯定离不开知识图谱 。
那么预训练语言模型和知识图谱之间到底有什么关系?这两者是完全分离的吗?
近日 , AI科技评论发现了一篇伯克利和清华的团队的研究“从预训练语言模型生成知识图谱”的论文 。
文章插图
论文链接:
这篇论文有以下三点贡献:
1、展示了如何从预训练语言模型中构建知识图谱 。
2、提出了一种无监督的两阶段方法:MAMA 。
3、构建了一类全新的知识图谱——开放知识图谱 。
那么本文到底如何实现以上三点贡献的呢?
AI科技评论为此联系到了本文的一作王晨光博士和二作刘潇同学来对本文做了亲自介绍 , 并在之后对他们进行了十五个深度问答 。
1 背景介绍
无论对人类智能还是机器智能而言 , 知识图谱(Knowledge Graphs)都是不可或缺的资源 。 大量研究工作表明 , 将人类知识融入人工智能应用可以大大提升算法在执行复杂任务时的表现 , 例如推理与语言理解 。
首先来简单介绍一下知识图谱:
现有大型知识图谱 , 诸如Wikidata、Yago、DBpedia , 富含海量世界知识 , 并以结构化形式存储 。 如下图所示 , 每个节点代表现实世界中的某个实体 , 它们的连边上标记实体间的关系 。 这样 , 美国作家马克·吐温的相关知识就以结构化的形式记录下来 。
文章插图
然而长期以来 , 知识图谱的构建通常基于手工标注 , 耗时耗力(例如Freebase和Wikidata) 。
尽管研究者们也探索了半监督方法(例如NELL和Knowledge Vault) , 但其仍旧依赖于大量人工标注的参与 。
而近期出现的预训练语言模型(如BERT , GPT-2/3) , 给自然语言处理领域带来了革命性的进展 。
近期GPT-3在写作、编程与对话上更是展现出令人震惊的能力 。 许多这样的任务 , 对人们而言都是需要丰富的知识才能完成的 。
文章插图
如此推断 , 预训练语言模型也应当已从海量的语料(如BookCorpus , Common Crawl)中潜在地学习到了许多知识 。
因而 , 作者在这篇论文工作中想要探究这样一个问题:
相比起传统的人工知识图谱构建 , 我们是否有办法利用预训练语言模型中存储的知识来构建知识图谱呢?
无论是什么方法 , 构建完整、高质量的知识图谱都绝非易事 。 在该工作中 , 我们初步尝试设计了一个无监督的构建方法MAMA(Match和Map的缩写)来唤醒预训练模型中存储的知识 。
该方法通过一步简单的语言模型前向传播就能从文本语料中构建出知识图谱 。
文章插图
图1
如上图1所示 , MAMA含有两个执行阶段:Match(匹配)和Map(映射) 。
2方法细节一、MATCH阶段:注意力权重矩阵上的集束搜索生成候选知识
我们将整个MATCH阶段定义为一个搜索问题 。 先前的研究表明 , Transformer中的注意力矩阵通常能够提供非常好的语义层面的信息;不过 , 还没有工作关注是否注意力矩阵也同样包含着我们想要的知识 。
因此 , 我们考虑通过最简单的方式——搜索 , 来尝试获取注意力权重矩阵中的知识 。
考虑一个极其简单的句子“Dylan is a songwriter.”和其中的一对三元组头尾(h, t)=(Dylan, songwriter) , 我们执行这样的三步集束搜索:
1. START(开始):从头部实体开始搜索 , 将h(此处即Dylan)加入集束搜索 , 并返回一个候选的“(h, ”(此处即“(Dylan, ”) 。 匹配度被初始化为0 。
2. YIELD(生成):如果当前的候选还没有达到尾实体t(此处即songwriter) , 则迭代地生成一个个新的中间候选并加入 。
- 势不可挡|清华教授刘瑜:我的女儿正势不可挡地成为一个普通人
- 示该站点|虾秘功能大揭秘之订单监测&广告概况
- 京东另类科学实验室之"5G来了"
- 清华大学刘知远:知识指导的自然语言处理
- ICPC--1200:数组的距离时间限制&1201:众数问题
- "财富梦"AI外贸配方?国货搭载AI"火箭营销"?
- ICPC--1206: 字符串的修改&1207:字符排列问题
- ICPC--1204: 剔除相关数&1205: 你爱我么?
- 音乐平台"改头换面",是新一轮社交平台,还是生活放松圈
- MITRE ATT&CK系列文章之Windows管理共享风险检测