钛媒体@微盟数据修复为什么需要七天七夜? | 钛媒体独家


钛媒体@微盟数据修复为什么需要七天七夜? | 钛媒体独家
本文插图
数据中心硬件工程师 通过腾讯会议远程展示操作细节
“数据恢复过程充满挑战 , 团队的心情也和过山车一样 。 ”
一位参与了微盟数据恢复过程的工程师向钛媒体表示 。
2月25日 , SaaS服务商微盟集团(2013.HK)发布关于系统故障的公告 , 称SaaS(软件即服务)业务数据遭到员工人为破坏 , 并表示已向上海警方报案 , 该员工已被刑事拘留 。 这一事件迅速引起业界注意 , 钛媒体对此事也进行了系列跟踪报道 。
(详见钛媒体前文:微盟遭员工“删库跑路”:SaaS服务暂停 , 或涉及300万商户;微盟“删库”144小时 , 痛的不是股价 , 是信任)
微盟遭核心运维人员删库事件引发了人们对企业数据安全的一系列思考 。 从2月23日晚微盟事发 , 到3月1日晚微盟宣布数据全部找回 , 腾讯云以及专业数据恢复服务商技佳瑞康的几十位工程师亲历了整个数据修复过程 。
钛媒体独家获悉 , 目前微盟的数据还无法说“完全恢复上线”:虽然核心业务数据已经恢复 , 但目前尚有一些数据收尾工作还在进行 。 只不过工程师们经过七天七夜的轮班倒 , 终于到了松口气的时候 。
这7天24小时 , 微盟究竟被删了哪些数据?修复难度到底有多大?修复团队是如何抢救微盟数据库的?在“鬼门关”过了一遭的微盟为什么突然决定全面上云?
腾讯云运维中心和客户服务部门负责人徐勇州以及技佳瑞康技佳瑞康数据恢复负责人赵力对钛媒体的一连串问题进行了回应 。
问题症结:备份一并删除 , 涉及大量数据拼接在微盟事件发生的2月23日星期天下午晚上六点多 , 腾讯云工程师们一开始还在排查到底是哪个环节出了问题 , 但紧接着他们发现 , 所有服务器已经都处于无法响应的状态 。
“然后我们就挑了其中的一台服务器去进行重启 , 结果重启完就发现系统所有的数据都不见了 , 其实那时候已经非常紧张了 , 而且是大面积的 , 说明要么就是被入侵了 , 要么就是被故意破坏了 。 ”徐勇州回忆 。
【钛媒体@微盟数据修复为什么需要七天七夜? | 钛媒体独家】紧急情况下 , 腾讯云分开两条线:

  1. 一条线 , 数据线同学的确认工作 , 根据服务器上的那些表现判断 , 非常明确 , 服务器上所有的文件都已经全部丢失;
  2. 另外一条线 , 安全的同学去看这中间到底发生了什么事情 。
“被执行了非常非常高危操作”——这是数据恢复团队在进行现场排查后 , 对微盟事件的一个定性 。
腾讯云发现 , 微盟数百T的数据被全部删除 , 备份数据也被一并删除 , 印证了此前业界对微盟事故“如果不是没有备份 , 就是备份也被删除”的猜测 。 同时也就意味着 , 修复将会是一项难度极大、耗时极高的工程 。
就在微盟公告事故之后 , 腾讯云也第一时间跟进了回应:事故发生后 , 腾讯云的技术团队已经在第一时间与微盟对齐 , 研究制定修复方案 。
技佳瑞康的赵力也告诉钛媒体 , 他们在23日晚便接到了数据恢复需求 , 紧急调动了上海、深圳、北京的4位主力工程师通过线上协作参与了数据恢复 。 “因为疫情 , 我们的工程师没办法赶到现场 , 通过腾讯云搭建的线上协作环境 , 以及他们自己的代码协作工具 , 尽最大努力协助微盟降低损失 。????”赵力说 。
最终采用了速度快、高风险的修复方式数据恢复需要科学的规划和合理的节奏 。 腾讯云和微盟以及技佳瑞康一起制定数据恢复方案 。
“尤其针对这么庞大的数据恢复 , 更是需要技术团队做专业规划 。 腾讯云团队联合微盟、以及数据恢复公司在事件发生后的第一时间就制定了一套完整的数据恢复方案 。 ”徐勇州说道 。
第一步 , 控制受损面 。 不能让现在还有机会找回数据的那些服务器再发生任何的问题 , 或者说数据能发生任何的问题 , 这是一般做数据恢复首先要做的第一步工作;