IT168:AI走进数据中心智能化运维:腾讯与清华联合论文被IFAC录用( 二 )


目前上述研究成果已经被研究团队整合形成电池AI诊断服务 , 并在腾讯自研的数据中心基础设施管理软件平台——腾讯智维平台上发布落地 , 覆盖了腾讯自建数据中心的数万只蓄电池 。 该服务能够方便地集成进现有的电池管理服务中 , 并能够自动对采集到的蓄电池电压、内阻和温度数据进行分析预测 。
IT168:AI走进数据中心智能化运维:腾讯与清华联合论文被IFAC录用
文章图片
应用数据驱动进行UPS蓄电池健康管理流程图
现场专家工程师对AI故障诊断的效果进行了持续的跟进验证 , 验证结果表明 , 相比于原有的电池维护策略 , AI诊断服务能够更加准确地对电池的故障状态进行提前预测 , 同时还可以检测出超出专家知识范围的潜在电池故障 , 这使得数据中心的运维工程师能够对蓄电池的维护更换进行更加有针对性地规划 , 有效提高了蓄电池的运维效率 , 进一步保障数据中心的可靠性 。 在对腾讯天津数据中心3号楼的6880节电池进行现场实际落地验证发现 , 电池健康管理服务可以实现96.2%的告警准确率 , 且告警时间比实际故障提前5~30天 , 大大优于传统的基于经验规则的分析方案 。
目前 , 腾讯团队正在逐步扩大落地范围 , 未来将通过智维平台 , 实现对腾讯几十万节电池的业务覆盖 。
据了解 , 腾讯智维平台由服务腾讯内部的星云平台升级而来 , 是腾讯将近20年数据中心运营经验与智能化、云化技术相结合 , 自研的一款数据中心基础设施管理软件平台 。 通过腾讯智维平台 , 可以实现数据中心的智能告警、智能巡检、智能容量分析和透明化的客户体验 , 为全局把控、精细化管理、优化运营成本提供基础 , 同时也为技术专家实时、异地处理告警和数据中心的无人值守创造可能 。 它可以帮助客户360°掌握数据中心的运行情况 , 持续提升运营的质量与效率 , 降低成本投入 , 将数据中心的价值极大化 。 腾讯智维平台就像是数据中心的“大脑” , 为腾讯数据中心赋予了精密的感知能力和快速迭代进化的能力 。
IT168:AI走进数据中心智能化运维:腾讯与清华联合论文被IFAC录用
文章图片
腾讯智维平台功能简介
目前 , 腾讯智维平台已在腾讯超过80个大规模数据中心进行部署 , 覆盖了全球12个国家和地区 , 运营管理了超过100万台服务器 , 测点数量超过600万个 。 同时 , 腾讯智维也和重庆电信、广东电信等运营商和银行、证券等各行业的客户达成了合作关系 。 据了解 , 腾讯智维平台接入部署后 , 为重庆电信在能耗优化方面提升30%左右 , 每年节省电费达百万元以上 。
腾讯联合高校携手推进新基建领域技术创新及应用落地
早在2006年 , 腾讯就围绕人才培养、联合研究和学术交流三条主线启动了腾讯高校合作项? , 并先后与清华大学、哈尔滨工业大学、中科院计算所、北京大学、华中科技大学、中国人民大学、南京大学、西安交通大学等多所知名高校成立联合实验室 , 且与众多领域专家开展产学研合作 。
IT168:AI走进数据中心智能化运维:腾讯与清华联合论文被IFAC录用
文章图片
腾讯数据中心实地勘察研讨交流
2016年 , 腾讯IDC平台部与清华大学自动化系智网中心团队的赵千川、贾庆山和夏俐老师建立了数据中心自动化运维领域的产学研合作 。 研究工作以提升数据中心运营质量、降低运营成本和提升运营效率三个目标为出发点 , 经过双方多年持续耕耘 , 已累积发表6篇高质量学术论文 , 输出7项发明专利 。
腾讯数据中心和高校专业研究团队的合作研究 , 不仅集中在电池健康管理的研究上 。 在数据中心智能告警方面 , 研究团队提出了告警预警多维分析方案 , 综合设备状态、设备工艺 , 采用多传感器融合以及专家知识等方法 , 通过对数据中心的告警数据的根因分析和关联性分析 , 对数据中心告警风暴进行收敛 , 有效减少冗余告警信息 , 实现了对数据中心设备的准确告警和提前预警 , 并在海量告警场景中进行告警溯源、定位根因 , 帮助现场工程师快速定位故障 , 有效提升现场告警的准确性和响应效率 。 该方案已应用于腾讯智维平台 , 在近百个腾讯的数据中心中提供实际支持 。