【中国外汇交易中心工程运行部总经理 姜才康】外汇交易中心集中( 六 )

 

为解决系统在短期内同一事件多次发生告警,导致技术人员即使已经在处理该类事件时,仍然会收到大量重复报警问题,我们在事件平台中开发了事件降噪功能,通过对相关事件进行关联及归类,有效平衡了告警频率和告警有效性的问题。如某日志文件发生大量关键字告警,经事件降噪后,在第一条日志告警触发第一次告警后,之后将每隔10分钟会另行通知本段时间内该类事件又触发了多少次,直到事件报警冷却时间结束后,重新进行告警。

 

3.整合监控资源,打造统一监控平台

为进一步降低运维成本,提升监控水平,在完成监控工具梳理和事件平台的建设后,着手开展监控资源整合也即集中监控平台的建设工作,目标就是打造一个可以对监控相关工作提供统一入口进行综合管理的平台。

 

集中统一监控平台架构自顶向下可分为展现层、汇聚层、监控应用层以及数据采集层:数据采集层通过自主研发及使用第三方监控代理的方式对机房动环、服务器、网络设备、存储、操作系统、应用中间件、消息中间件、数据库以及应用系统等各类运行数据进行全面采集,供上层监控应用层进行监控及分析;监控应用层向下负责基于数据采集层的数据对应用系统从基础设施到业务功能进行全方位监控,向上负责将各类报警事件汇聚至汇聚层进行集中管理;汇聚层通过对下层监控应用层的监控事件进行集中管理,对外实现事件报警、事件报警信息查询、事件降噪等功能。展现层通过基于汇聚层的事件信息,对终端用户提供可对报警事件、系统异常时上下文信息、监控策略等各类监控信息进行综合管理的统一入口,避免原先运维人员需要到多个监控系统查询报警信息并登录到各个服务器通过查询日志获取系统异常信息等繁琐操作。