老王技能厂|爱数如何驾驭数据洪流？，破局非结构数据备份与恢复难题数据是21世纪的石油

数据是21世纪的石油，但稍有不慎，数据也可能演化为颠覆企业的洪流。
时至今日，几乎没有人会否认数据如石油般的价值，但这建立在一定的前提之下。 “甲之蜜糖，乙之砒霜”——使用得当，数据就是石油，使用失当，数据就是洪流。数据应用水平成为数字时代左右企业成功的胜负手。
据IDC预测，到2025年，全球数据圈将增至175ZB ，届时中国将成为全球最大的数据圈，其中80~90%都是非结构化数据，潜藏着无法准确计算的价值。

文章图片
相比石油本身， “数据石油”未免爆炸式增长得太快，石油形成的时间轴以百万年计，不可再生，我们有足够的时间慢慢开采。而数据每时每刻都在生成，很多数据边产生边流失，何谈开采。
让数据能够合适的沉淀、备份，在应用时又能快速的开采、恢复，这是数字化转型中各行各业面临的共性挑战，同样是爱数AnyBackup推出非结构化数据超可用方案的核心所在。
海量非结构数据管理的痼疾
与结构化数据相区分，非结构化数据具有内部结构，但又没有预定义的数据模型，不便用数据库二维逻辑表来表现，我们常见的办公文档、文本、图片、XML,HTML、各类报表、图像和音频/视频信息等等，都是非结构化数据。

文章图片
市场分析机构Igneous在2018年发布的《非结构化数据管理状况》显示， 40%的组织至少拥有少于10亿个文件， 60%的组织拥有超过10亿个文件，其中6%的组织拥有超过1500亿个文件，超过83PB ，如今数据只会更多。

文章图片
拥有“数据石油”最多的企业，也面临着最大的难题，怎么管理、备份、恢复以及归档海量的非结构数据，过去企业只能尽力而为。
企业用于解决海量非结构数据备份和恢复的方案主要有三种：NDMP备份、NAS存储复制和对象存储，然而这三种方式各有缺憾：
●NDMP是为磁带介质而设计，为了防止增量备份过多影响恢复，所以NDMP必须做周期性全备，并不支持海量数据场景；
●NAS是目前非结构数据的主要存储方式，一般来说分布式存储至少需三个节点，建设成本较高，而且NAS存储各厂商之间并不互通，存在厂商锁定风险；
●对象存储是近年来的新趋势，不少企业也正在把数据从NAS向对象存储迁移，但对象存储实际上是生产存储或者归档存储，不是数据备份，存放企业最新的数据，没有历史时间点，无法解决企业备份和恢复的问题。
如上三种传统方式都不能很好地解决海量非结构化数据的备份和恢复的问题，根本原因是没有解决文件读写I/O的瓶颈。
无论哪种方式，都要对文件进行读写，在单文件不同大小的备份/恢复性能对比中，文件大小为10M或更小时，备份和恢复性能呈现一条加速向下的折线。显然，传统方式在面对海量的小文件时尤其手足无措。
AnyBackupFamily7：性能至上，超可用打底
爱数AnyBackupFamily7定位是全栈可用的灾备云，也是爱数针对海量非结构数据管理痼疾的集大成产品。
AnyBackupFamily7首先实现了备份快，在传统定时备份的基础上，还提供了CDM（副本数据管理）方式。
通过多线程多客户端技术，大幅提升了海量数据的并发读取效率，打破了单文件读写的性能瓶颈，通过永久增量技术，有效解决了NDMP周期性备份的问题，为客户节约了大量备份时间与带宽资源。此外， CDM技术可对原生数据副本复制，从而实现零合成时间，大大提升了备份的效率。