知识|产品视角下的知识图谱构建流程与技术理解( 二 )


这一类对数据的直接应用,就是图结构消费场景,包括图数据搜索,路径分析,关联分析,图谱可视化等等,其核心就是对庞大的图谱数据快速查找、关联、分析和展现。
除了对数据的直接查找和分析,还可以从自然语言的角度应用知识图谱。知识图谱天然的适合人类自然语言的处理,可以用人的思维提出问题,利用图谱庞大的数据规模,通过算法、推理规则、机器学习和深度学习等产人工智能,实现一些问答和分析。
举个例子,知识图谱中存在<砂石,组成,水泥>和<水泥,组成,混凝土>两个三元组,通过知识推理,可以得到<砂石,组成,混凝土>,即通过一定的知识推理得到未知的事实与关系。
这一类数据应用,就是语义消费场景,包括自然语言检索、智能分析、知识推理等等,其核心是把图谱中的知识通过规则或深度学习,形成一定的人工智能。
知识|产品视角下的知识图谱构建流程与技术理解
文章插图
以上是从技术应用的角度分析知识图谱的应用,但所有的知识图谱最终都是要形成产品,提供服务的。
从我们接触到的各种产品来说,可以分为通用知识图谱,垂直领域知识图谱,还有针对企业提供服务的,专门构建知识图谱的组件和标准化、流程化、自动化工具。
通用的知识图谱,就是我们常见的搜索引擎,问答系统,或者各种百科。
自2012年谷歌发布知识图谱项目,并宣布以此为基础构建下一代智能化搜索引擎后,知识图谱的应用逐渐深入。
现在使用谷歌,百度等进行搜索,不再仅仅是关键字匹配,而是关键词增强检索,即以检索词在图谱中的的同义词、上下位词等词集合共同搜索,用来拓展或约束搜索。
同时还可以关联更多的本体及实例,直接找到答案或者展示与检索词有关的所有关系。
例如搜索某一个电影,可以看到以图谱形式展现的电影的所有主要演员,导演,上映日期等信息。
关于关系搜索和结构化展示,更加直观的例子是天眼查,可以通过搜索一家公司,找到其所有关联的子公司与法人等,同样是以图谱的方式展现的。
问答系统中,用户直接输入问题或通过语音识别,将问题转化为文本,再由自然语言处理找到关键信息以及应当采取的操作,将用户问题转变为知识图谱可识别的查询语句,然后在知识图谱中检索得到候选实体集合,通过对不同候选实体进行打分及排序,得到问题的答案。
知识图谱对于事实类、是非类、定义类等问答效果较好。
百科产品中,知识图谱也越来越重要。
百科本身就具有庞大且多维度的信息,如果把百科的数据转化为图谱,就可以在保证图谱数据质量的情况下,极大的拓展图谱规模,其中一个代表就是维基百科的子项目Wikidata。
Wikidata的目标是构建一个免费开放、多语言、任何人或机器都可以编辑修改的大规模链接知识库。Wikidata支持以三元组为基础的知识条目的自由编辑。
一个三元组代表一个关于该条目的陈述(Statement)。
例如,可以给“土木工程”的条目增加“<土木工程,涉及,工程施工>”的三元组陈述。自2012年启动到现在,Wikidata已经有多于5000万条目了。
知识|产品视角下的知识图谱构建流程与技术理解
文章插图
垂直领域的知识图谱是相对通用知识图谱而言的,面向特定领域的知识图谱,如电商、金融、医疗等。垂直领域的知识图谱不一定是从互联网等开放数据抓取,而更可能是企业内部的专业数据。
同时知识表示也不止是三元组等事实性知识,通常由更为复杂的本体知识和规则型知识。
知识抽取的质量也要求更高,往往需要人工校验,保障质量。
更重要的是,垂直领域的知识图谱应用形式更全面,除了搜索问答,通常还有决策分析,业务管理等,这些业务对推理的要求更高,并要求更强的可解释性。
以金融知识图谱为例,Kensho采用知识图谱辅助投资顾问和投资研究,图谱的主要知识来源是于机构已有的结构化数据和公开的公报,研报和新闻的联合抽取等。
金融概念复杂性较高,并较多的依赖规则型知识进行投资因素的关联分析。此外,金融知识图谱还具有高度的时效性,需要对金融知识进行时间维度的建模。
最后一部分是知识图谱的组件和标准化,这些都是面向B端企业,为了企业更高效高质量的构建知识图谱所做的工作。
知识图谱组件是指围绕知识图谱的构建一些相关组件产品,比如本体编辑器、关系抽取器、垂直搜索等等,具体工具如斯坦福大学开源的本体编辑工具Protégé,斯坦福大学 InfoLab 实验室开源的知识抽取的系统Deepdive。