202x年,数字化如何从结构化向知识化阶段转型?| 超级观点

带着观点看商业 。 超级观点 , 来自新商业践行者的前沿观察 。
文 | 特约观察员 顾夏辉(子长科技CTO)
编辑 | 吕方
随着5G技术的不断发展 , 万物互联进一步得到普及 , 数字化也不断渗透进企业和个人工作生活的方方面面 。 而伴随数字化发展而来的 , 则是难以被直接使或并产生价值的互联网海量数字化信息 。
202x年,数字化如何从结构化向知识化阶段转型?| 超级观点文章插图
Gartner 统计
202x年,数字化如何从结构化向知识化阶段转型?| 超级观点文章插图
Statista.com 统计
据Statista统计发现 , 2020年全球数字化信息量已经达到50.5万亿GB 。 而在Gartner的数据统计中显示 , 目前各企业的数据湖中 , 却仅有10%的数据是有意义的 。
数字爆炸下 , 我们在各种碎片时间里阅读更加破碎的一条条新闻或短视频 , 却越来越难以从全貌了解整个世界发生的变化 。 各个企业的数据也变成了一个一个的孤岛 , 并不是数据不连通 , 而是想要消化理解万物联通后的数据更难了 。
数字化虽然帮我们解决了数据存储、跟踪、互联等问题 , 但随之而来的数字爆炸 , 以及背后如何更好地感知信息、理解数据、快速决策 , 都成为当前企业的一大挑战 。
结构化数据:为了更好地感知信息人们对短讯息的需求量远远超过了对于完整新闻的需求 。 目前基于深度学习的自然语言处理技术的快速发展 , 我们已经可以通过机器学习的方式自动从海量的非结构化数字信息中抽取事件等实体 。 信息抽取后的内容 , 被称为结构化数据 。 结构化数据可以帮我们更直观的了解信息 。 我们不用阅读成百上千的文字 , 只需要短短几个单词 , 就可以明白发生了什么 , 相当于有一个阅读助理帮助我们总结信息的中心思想 , 大大提升了阅读效率 。
同时 , 结构化数据也可以使软件或服务系统对信息进行处理 。 软件系统无法理解人类的信息 , 但是可以理解结构化后的数据 。 如果说OCR技术(Optical Character Recognition,光学字符识别)是对文档进行数字化处理 , 那么基于自然语言处理的信息抽取是对数字化信息进行结构化处理 , 而只有结构化后的信息才可以使得数以万亿的数据产生价值 。 几年前我们常听到得数据者得天下 , 那么现在应该是得结构化数据者得天下 。
目前我们正处于电子化阶段到结构化阶段转型的时间点 。 面对海量的非结构化数据 , 我们只能盲人摸象 。 而只有完成结构化转型 , 企业才能对市场更加了解 。 DaaS(数据即服务)指的就是结构化的数据 , 也只有结构化的数据才可以形成服务 。
202x年,数字化如何从结构化向知识化阶段转型?| 超级观点文章插图
1STEP.AI通过机器学习对图标和表格结构化
知识图谱:为了更好地理解数据结构化阶段的产品可以使数据更好的提供服务给使用者 , 同时也可以给其他的系统提供服务 。 但是结构化后的数据依然是分散的数据 , 这些数据无法形成系统 , 也无法对决策进行支持 。
我们日常阅读大量的信息 , 其实是想对现状进行系统性的了解 , 从而辅助做出决策 。 比如一个交易员需要对金融市场相关的事件保持高度的了解 , 这可以帮他作出更好的交易决策;一个技术工程师对新技术的信息理解 , 可以使得他对系统设计做出正确的决策 。
所以对信息的全面了解程度是作出正确决策的重要保证 , 而知识图谱是一个很好的梳理、关联结构化数据的方法 。 知识图谱可以对数据进行深层次关联和推理 , 将结构化的数据变成知识是知识化阶段的重要过程 。
在知识化阶段 , 我们把海量的数据关联起来 , 通过知识图谱和机器学习 , 对知识节点进行快速的整理和理解 。 知识化阶段是机器从感知到认知的过程 , 通过机器高速的运算能力 , 对抗海量的数据积累 , 让机器通过知识图谱为我们绘制整个图谱 , 从而提供智能决策辅助企业经营 。