极道品牌故事之:数据感知

无论多高端的存储系统 , 首先提供给用户的都是存储“空间” , 这些空间既可以是通过“地址”访问的(地址空间) , 也可以是通过“名字”访问的(名字空间) , 特别是非结构化的存储系统(文件存储、对象存储) , 需要在空间之外 , 提供有效的数据管理 。
极道品牌故事之:数据感知文章插图
极道存储的差异化能力——数据感知如何根据某一数据特征在一个目录过千万、文件数上亿的存储系统中查找到所需数据一直是一个巨大的挑战 。
遍历存储系统是最直接的 , 当然也是最差的方法 。
首先 , 遍历存储系统意味着需要漫长的等待 , 而更麻烦的是往往不知道具体要等多久;
其次 , 我们知道遍历动作本身是一个元数据密集型的应用 , 对文件系统会造成性能压力 。
极道品牌故事之:数据感知文章插图
这个需求过去一直不被存储厂商关注 , 但随着数据量越来越大 , 遍历带来的问题也越来越严重 。 几个小时、甚至几天都遍历不完一遍已经是常态 。 我们最大的存储用户 , 遍历其存储系统一次估计需要几个月的时间 。 传统上 , 存储厂商不认为数据管理是存储系统的责任 , 而这个事情可以由数据库或业务驱动的固定表结构应用来解决 。 这里有两个前提:
首先 , 表结构相对固定 , 并且管理的数据特征需要事先固定下来;
其次 , 引起数据特征变化的操作都必须通过数据管理系统 , 所有绕过数据管理系统直接的存储操作 , 都不会被数据管理系统捕获 , 使得整个系统无法取得完整的数据实时特征 。
几乎所有的企业用户都面临着海量非结构化数据的冲击 , 而且往往是单一类型的数据急剧膨胀 , 比如基因测序仪的下机数据、生产线的监控数据等等 。 虽然这些数据占据了大量的存储空间 , 但基本上由于类型单一内涵不够丰富我们只能把它们算做“胖数据” , 而不是“大数据” 。
相反 , 关于这些胖数据的数据 , 也就是我们讲的数据特征或元数据才有可能是真正的“大数据” 。 比如 , 这些数据的产生时间、处理时间、处理用的模块和参数、数据的所有人、产生对象、数据的含义和解读、关联关系等等 。
如果企业利用适当的工具 , 从容地应对这些海量数据 , 那么这个企业就会有很好的数据资产;反之 , 如果无法应对 , 则企业得到的是严重的数据负担 。
数据管理的对象是数据特征(元数据) , 把握好元数据 , 提取完整的数据特征 , 是数据管理的基础 。 通过数据特征发现数据 , 组织动态的数据集合 , 支持对数据的分析、挖掘、机器学习 , 进一步发现数据和数据之间的关联关系 , 数据和特征之间的关系 , 特征和特征之间的关系 , 是数据管理的终极目标 。
元数据 , 数据管理的对象元数据(MetaData)就是关于数据的数据 , 也就是数据的特征 。 基于强关联的大规模实时元数据管理系统MetaView是极道数据系统的三大核心组件之一 , 实现了对极道存储系统中所有数据的有效管理 。
MetaView中的元数据可以分成两个类型 , 工业标准的元数据 , 行业定义的元数据 。 工业标准的元数据描述了数据(文件或对象)的名字、大小、属主、创建时间、最后访问时间、修改时间、权限等等 。 行业定义的元数据是行业应用相关的数据特征 , 比如生物行业的门、纲、目、科、属、种;基因行业的样本信息及一些重要的表型信息;遥感领域的卫星过境时间、经纬度、卫星编号等等 。
面对丰富的元数据 , 用什么技术实现一套有效的元数据管理系统是非常有挑战的 , 更何况极道还坚持产品上的极致追求 , 从开始就把元数据管理的目标设定为“不得对相关存储的IO性能有任何不利影响” 。
作为可选技术之一 , 关系型数据库可以组织各种元数据的关联用以查询 , 但是需要根据不同的应用定义固定的表结构 , 限制了系统的通用型和灵活性 , 而且面对动辄几亿个、几十亿个文件的海量非结构化数据 , 关系型数据库的扩展性限制了可管理数据的规模 。 非关系型分布式数据库(NoSQL)是另外一个选择 , 可以满足扩展要求 , 但很难表达元数据之间的关联关系 。 显然 , 需要一种新的技术来存储海量的结构不固定的元数据 , 同时还要保留元数据之间的关联关系 。