清华大学刘知远:知识指导的自然语言处理( 三 )


清华大学刘知远:知识指导的自然语言处理文章插图
同时 , 知识也能指导我们进行信息检索 , 计算query和文档之间的相似度 。 除了考虑query和document中词的信息 , 我们可以把实体的信息、以及实体跟词之间的关联形成不同的矩阵 , 从而支持排序模型的训练 。
清华大学刘知远:知识指导的自然语言处理文章插图
最后 , 预训练语言模型的诞生 , 把深度学习从原来有监督的数据扩展到了大规模无监督数据 。 事实上 , 这些大规模文本中的每句话 , 都包含大量实体以及它们之间的关系 。 我们理解一句话 , 往往需要外部的世界知识的支持 。
能否把外部知识库加入预训练语言模型呢?2019年 , 刘知远所在的团队提出ERNIE模型 , 使用知识表示算法(transE)将知识图谱中的实体表示为低维的向量 , 并利用一个全新的收集器(aggregator)结构 , 通过前馈网络将词相关的信息与实体相关的信息双向整合到一起 , 完成将结构化知识加入到语言表示模型的目的 。
清华大学刘知远:知识指导的自然语言处理文章插图
四、总结
本次报告主要从义原知识和世界知识两个方面 , 阐述了知识指导的自然语言处理相关的工作 。 未来自然语言处理的一个重要方向 , 就是融入人类各种各样的知识 , 从而深入地理解语言 , 读懂言外之意、听出弦外之音 。 针对面向自然语言处理的表示学习 , 刘知远等人也发表了一本专著 , 供大家免费下载研读 。
清华大学刘知远:知识指导的自然语言处理文章插图
【清华大学刘知远:知识指导的自然语言处理】相关链接及参考文献:
清华大学刘知远:知识指导的自然语言处理文章插图
清华大学刘知远:知识指导的自然语言处理文章插图
清华大学刘知远:知识指导的自然语言处理文章插图
清华大学刘知远:知识指导的自然语言处理文章插图