知识|产品视角下的知识图谱构建流程与技术理解( 二 )

这一类对数据的直接应用，就是图结构消费场景，包括图数据搜索，路径分析，关联分析，图谱可视化等等，其核心就是对庞大的图谱数据快速查找、关联、分析和展现。
除了对数据的直接查找和分析，还可以从自然语言的角度应用知识图谱。知识图谱天然的适合人类自然语言的处理，可以用人的思维提出问题，利用图谱庞大的数据规模，通过算法、推理规则、机器学习和深度学习等产人工智能，实现一些问答和分析。
举个例子，知识图谱中存在<砂石，组成，水泥>和<水泥，组成，混凝土>两个三元组，通过知识推理，可以得到<砂石，组成，混凝土>，即通过一定的知识推理得到未知的事实与关系。
这一类数据应用，就是语义消费场景，包括自然语言检索、智能分析、知识推理等等，其核心是把图谱中的知识通过规则或深度学习，形成一定的人工智能。

文章插图
以上是从技术应用的角度分析知识图谱的应用，但所有的知识图谱最终都是要形成产品，提供服务的。
从我们接触到的各种产品来说，可以分为通用知识图谱，垂直领域知识图谱，还有针对企业提供服务的，专门构建知识图谱的组件和标准化、流程化、自动化工具。
通用的知识图谱，就是我们常见的搜索引擎，问答系统，或者各种百科。
自2012年谷歌发布知识图谱项目，并宣布以此为基础构建下一代智能化搜索引擎后，知识图谱的应用逐渐深入。
现在使用谷歌，百度等进行搜索，不再仅仅是关键字匹配，而是关键词增强检索，即以检索词在图谱中的的同义词、上下位词等词集合共同搜索，用来拓展或约束搜索。
同时还可以关联更多的本体及实例，直接找到答案或者展示与检索词有关的所有关系。
例如搜索某一个电影，可以看到以图谱形式展现的电影的所有主要演员，导演，上映日期等信息。
关于关系搜索和结构化展示，更加直观的例子是天眼查，可以通过搜索一家公司，找到其所有关联的子公司与法人等，同样是以图谱的方式展现的。
问答系统中，用户直接输入问题或通过语音识别，将问题转化为文本，再由自然语言处理找到关键信息以及应当采取的操作，将用户问题转变为知识图谱可识别的查询语句，然后在知识图谱中检索得到候选实体集合，通过对不同候选实体进行打分及排序，得到问题的答案。
知识图谱对于事实类、是非类、定义类等问答效果较好。
百科产品中，知识图谱也越来越重要。
百科本身就具有庞大且多维度的信息，如果把百科的数据转化为图谱，就可以在保证图谱数据质量的情况下，极大的拓展图谱规模，其中一个代表就是维基百科的子项目Wikidata。
Wikidata的目标是构建一个免费开放、多语言、任何人或机器都可以编辑修改的大规模链接知识库。Wikidata支持以三元组为基础的知识条目的自由编辑。
一个三元组代表一个关于该条目的陈述（Statement）。
例如，可以给“土木工程”的条目增加“<土木工程，涉及，工程施工>”的三元组陈述。自2012年启动到现在，Wikidata已经有多于5000万条目了。

文章插图
垂直领域的知识图谱是相对通用知识图谱而言的，面向特定领域的知识图谱，如电商、金融、医疗等。垂直领域的知识图谱不一定是从互联网等开放数据抓取，而更可能是企业内部的专业数据。
同时知识表示也不止是三元组等事实性知识，通常由更为复杂的本体知识和规则型知识。
知识抽取的质量也要求更高，往往需要人工校验，保障质量。
更重要的是，垂直领域的知识图谱应用形式更全面，除了搜索问答，通常还有决策分析，业务管理等，这些业务对推理的要求更高，并要求更强的可解释性。
以金融知识图谱为例，Kensho采用知识图谱辅助投资顾问和投资研究，图谱的主要知识来源是于机构已有的结构化数据和公开的公报，研报和新闻的联合抽取等。
金融概念复杂性较高，并较多的依赖规则型知识进行投资因素的关联分析。此外，金融知识图谱还具有高度的时效性，需要对金融知识进行时间维度的建模。
最后一部分是知识图谱的组件和标准化，这些都是面向B端企业，为了企业更高效高质量的构建知识图谱所做的工作。
知识图谱组件是指围绕知识图谱的构建一些相关组件产品，比如本体编辑器、关系抽取器、垂直搜索等等，具体工具如斯坦福大学开源的本体编辑工具Protégé，斯坦福大学 InfoLab 实验室开源的知识抽取的系统Deepdive。