【中国外汇交易中心工程运行部总经理 姜才康】外汇交易中心集中( 十 )

在监控策略配置自服务的基础上,依托底层作业平台,将针对操作系统、数据库及中间件等操作封装为标准指令执行模块,前端提供用户以画流程图的可视化方式进行监控流程的配置,该功能让运维人员轻松实现灵活配置监控策略的同时,可以实现自愈等智能化监控功能;通过对报警内容的语义分析,实现对同类报警事件的归类,结合调用流程管理平台的接口,实现了对告警事件进行自动合并和事件开单的功能;实现了“磁盘空间报警时删除首先指定目录下的归档日志文件,进行空间释放”的自愈功能。当然,目前还是需要预先清晰地定义自愈规则,以后将通过机器学习的方式实现自愈功能。此外,基于机器学习相关理论,集中统一监控平台也已经初步实现了基础设施资源使用率预测功能。即基于历史性能数据,计算连续时间段内的动态阈值,通过综合实时性能数据和动态阈值判断,预测基础设施资源的使用趋势是否在安全界限内。

 

总结与展望

集中统一监控平台自建成以来,系统运行稳定,平均每天发现并通知300起告警信息,监控的覆盖率和准确率都达到了99%以上。对交易中心的各类基础设施、应用系统和业务服务进行实时监控,能够及时准确告警,协助快速定位问题,在故障的萌芽阶段予以消除,促进了业务连续性的保障工作;且集中统一监控平台的可配置性、可扩展性、可调整性有效支撑了业务发展的步伐。