你有一份世界运维大会参会报告待查收

因缘际会

今年下半年,我看了清华大学裴丹老师关于智能运维的几篇文章后,第一次接触了AIOps。当了解到未来人工智能的多项技术会在运维领域应用时,我有些心潮涌动,对AIOps倍感兴趣。

因为机缘巧合,我在在网上偶然看到了世界运维大会上海站将在在11月中下旬举行的消息,于是赶紧向PMO提申请,走流程,报名大会。为的是能亲赴大会,一睹为快,希望能从中了解到业界AIOps的趋势及动态,给大数据智能运维以灵感。当报名成功后,我的喜悦溢于言表。

“意外”发现你有一份世界运维大会参会报告待查收

和许多在年底召开的大会一样,世界运维大会上海站第一天开场的时候,有领导致辞和一些年度奖项的颁发。本来我对这块兴趣寥寥,直到在会议现场的大屏上发现了一个熟悉的图标和令人振奋的文字:中移(苏州)软件技术有限公司——最具影响力云服务提供商。

你有一份世界运维大会参会报告待查收

看到这里我顿时变的兴趣盎然,我以人格保证:这绝不是广告,我当初真的是不知情。

好了,闲话不多扯,下面,着重说说这次参会的学习收获吧。

学者你有一份世界运维大会参会报告待查收

大会以中国信息通信研究院何宝宏对AI的一些冷思考为开篇。何所长先抑后扬,由冷思考开始,重点指出了在盲目跟从AI的过程中一些错误的认识以及容易犯的错。这次AI的复兴,主要归结为这三个因素:对硬件新应用,大数据快速发展,算法的改进。

你有一份世界运维大会参会报告待查收

针对封闭空间问题,通过强化学习AI会很快的超越人类,比如AlphaGo,以及迅速更新的Zero,但我们要认识到AI不是万能的,不会有自我的概念,只会在一定规则内部超越人类的思维。何所长提出的一个观点,让我记忆深刻,我们知道深度学习可以做什么,但我们不知道,深度学习不能做什么,我们不知道不知道的。

从哲学的思考回归正题,来看看理论结合实践的研究

理论实践你有一份世界运维大会参会报告待查收

清华博导+腾讯智能运维落地生根

比较系统的从理论上讲解了什么是AI,AI与机器学习的分类,多种矩阵算法模型,十大机器学习算法简述。针对每一种算法做了简单的介绍,还是熟悉的数学算法,第一次接触还是在大学,让人仿佛一下回到大学时光,现在这些算法已经应用到新的热门领域。下图让你一秒入门AI:

你有一份世界运维大会参会报告待查收

理论过后,转到本次大会比较关注的点,智能化运维,为何需要智能运维?请看智能化介入前后的运维对比:

你有一份世界运维大会参会报告待查收

   

管理主机数快速增长,架构的日趋复杂,运维专家的匮乏,一直是运维界的痛点,我们需要解放自己。智能化介入之后,根因分析、预测、精准化推送、故障自愈、无人值守,一个个目标在慢慢落地。

针对线上环境纷繁复杂的问题,运维看似是一个无穷开放问题的空间,那如何与AI结合呢?

运维与AI结合落地点:

智能告警:环比同比分析,通过方差平均差算法,机器学习动态阈值推荐,提供  动态监控,减少漏告警,误告警,提高告警准确度;

关联异常分析:频繁项集算法,通过支持度置信度分析,将异常关联,更快速定位问题;

故障预测:对未来的趋势给出预测,例如:容量、资源预测,未雨绸缪;

运维客服:智能化客服,通过反馈的问题分析还可预测出实际线上问题。

理想目标:

智能运维的落地技术路线图,供参考:

你有一份世界运维大会参会报告待查收

分析出故障传播关系,止损修复

故障规避:性能瓶颈预测(何时何地扩容,轻松了解扩容时机,扩容量是多少),容量预测(动态扩缩容,资源预测),故障预测(动态切换)

业界落地你有一份世界运维大会参会报告待查收

业界已有很多公司在智能化运维方面,先迈出一步,相信很快苏研HSmart产品也会在大数据中间件智能运维方面迈出一大步,敬请期待。

业界公司对智能运维发展宗旨的总结很有启发:

自动化:打通系统,一站式管理所有脚本。愿景: 任何一个场景都能用工具执行;

数据化:数据采集能力(Metrics);数据的汇聚分析能力(数据的统一分类展示,告警);辅助决策能力。愿景:任何一个点的数据都能被采集;

智能化(数据化+主动决策):数据挖掘能力;机器学习能力;主动监控并决策能力。愿景:任何一条数据的价值都得以利用。

你有一份世界运维大会参会报告待查收

分析+决策+自动化=智能化,即大数据分析,机器学习+自动化执行。

苏研智能化探索你有一份世界运维大会参会报告待查收

苏研其实在智能化运维这块,已经开使了自己的探索,在近期举办的2017中国移动全球合作伙伴大会上,苏研展示了新一代智能化大数据运营平台。在大数据运维软件方面,除了大家所熟知的HControl之外,还在智能化运维方面做了一些探索:

自动化数据化

运维的自动化、数据化是智能运维的前提,对于我们团队来讲,HControl已经完全具备这两点。HControl是大数据运维监控软件,丰富而全量的监控信息展示,告警信息的实时收集警告,日志的统一化目录管理,全量自动化页面操作,可以很好的满足AIOps前提。

完整全量数据

AI通过大量的数据分析学习,从而给出我们想要的指标等信息,前台一定要有很大的数据积累及存储。以HControl的Metrics系统为例,将机器级别的监控数据(cpu、memory、network、umask等)以及各服务组件监控数据(Namenode块状态等)存储在Hbase中,很好的完成了数据的积累,并可以很方便对这些结构化数据进行抽取、分析、学习。

智能化HSmart

针对苏研大数据运维的实际业务需求,智能化的HSmart主要做了以下的一些事情。

你有一份世界运维大会参会报告待查收

未来,我们要做的事情会更多,我们要让运维工具成为运维人员可靠的左膀右臂,让其能够针对实际生产遇到的故障和问题,真正的实现自动处理,自动解决。

小结你有一份世界运维大会参会报告待查收

总体来说,本次大会收获很多,入门AI的同时,对业界智能运维的发展也有了一定的了解,并且多了一些灵感。我认为智能运维的介入,有效性准确性是建立信任的第一步,最大的挑战还在于检测到问题并自动修复,以达到无人化的终极目标。