元核云发布存储产品新特性,结合AI算法助力慢盘智能化检测

AI时代来临 , 让许多工作变得智能化、自动化 , 节省了大量的人力和物力 , 其实存储也不例外 。
01技术背景
众所周知在分布式存储系统集群运行环境下 , 硬盘是数量最多且故障率最高的硬件之一 , 目前 , 一般硬盘不加电、不工作等故障 , 普遍能做到及时发现并快速隔离处理 。 但有些时候硬盘故障会表现为工作的同时性能变得缓慢 。
具体表现为两方面
1. 随着时间推移性能相对其他硬盘逐渐变慢
2. 突发性缓慢 , 一段时间后恢复正常
判断一块硬盘是否已出现缓慢症状是相对复杂的过程 , 影响因素众多,如:IO大小 , IO延迟 , IO数量 , IO类型 , IO分布等等 , 同时在不同运行环境下其表现也不相同 。
所以及时准确地找出缓慢硬盘 , 并将其实施隔离 , 是存储系统性能稳定保证的关键 。
02技术说明
10年磨炼 , 5年精耕 , 元核云技术团队紧跟最新技术发展动向和发展方向 , 不断钻研 , 小步快跑快速迭代 , 结合AI算法助力慢盘智能化检测 , 实现智能存储新特性 。
通过建立延迟数据AI预测模型 , 定期不断训练 , 将实际延迟数据与预测延迟数据实时比对 , 将数据差异较大的硬盘标记为缓慢故障盘 , 并执行自动隔离操作 。
元核云发布存储产品新特性,结合AI算法助力慢盘智能化检测
具体流程如下
1 基于实际环境硬盘负载及其对应延迟数据 , 训练出基于硬盘负载的延迟预测AI模型;
2 获取运行环境的实时硬盘负载和延迟 , 基于负载可预测出正常延迟范围;
3 实际延迟频繁高于预测延迟范围的硬盘 , 即被标记为慢盘;
4 自动化运维平台在保障数据安全可靠前提下 , 将标记的慢盘踢出集群 。
03技术效果
数据来源:某客户生产环境下采集一套集群48小时的硬盘性能数据 。
硬盘类型:7.2K企业级机械盘 。
完成数据训练后 , 随机选择了2000个数据采样点进行预测延迟与实际延迟趋势对比 , 详见下图:
元核云发布存储产品新特性,结合AI算法助力慢盘智能化检测
注:蓝色为预测延迟数据 , 绿色为实际延迟数据
从图中数据中可以看出 , 两组数据成相似轨迹波动 , 符合预期 。 将两组数据取差值 , 可以看到2000个测试样本 , 差距基本在正负10毫秒以内 , 详见下图:
元核云发布存储产品新特性,结合AI算法助力慢盘智能化检测
04展现效果
元核云发布存储产品新特性,结合AI算法助力慢盘智能化检测
元核云发布存储产品新特性,结合AI算法助力慢盘智能化检测■?支持手动重置模型:若长时间运行业务环境需增加其他业务场景 , 或其他长期场景导致集群性能压力变化较大情况下 , 可重置模型 。 重新基于变化后环境进行预测且预
测模型参数可调 , 包括检测周期、采样频率、慢盘敏感度 。 适应不同压力业务环境下的训练模型 , 使预测更准确且更具针对性 。
? 预测到持续性慢盘后 , 根据疑似慢盘处理可以实现仅产生预警、仅产生告警、告警并隔离 , 根据告警/预警准确定位故障磁盘位置 , 并自动点亮磁盘灯 , 提醒运维人员查验并更换 。
? 若选择告警并隔离 , 其会自动将慢盘从存储集群中剔除 , 使后续业务更加稳定 。
? 根据预测的延迟偏离趋势分析预测准确度:偏离趋势持续下降则说明预测越来越准确 , 偏离趋势持续上升即需要对预测模型参数做调整 , 从而实现准确预测效果 。