科技看点|我选择的开源运维监控系统


科技看点|我选择的开源运维监控系统简介运维中 , 监控系统是必不可少的 。 无监控不运维 。
现在开源和商用的监控系统很多 。
有钱当然选择商用的 , 别人给你定制好 , 直接使用就方便好用 , 就是贵 。
没钱 , 就只能选择开源的 , 有实力还可以进行二次开发 , 来适应自家的环境 。
科技看点|我选择的开源运维监控系统开源监控系统【科技看点|我选择的开源运维监控系统】目前流行的监控系统:zabbix、nagios、Prometheus等 。
nagios是比较老的 , 但是它的灵活性很好 , 很多东西可以自定义配置 , 灵活就意味着自己需要花更多的时间来定制 。
Zabbix是一个企业级的高度集成开源监控软件 , 提供分布式监控解决方案 , 东西都很齐全 , 也有收费服务 , 总体功能做得非常优秀 。
Open-falcon是小米运维团队从互联网公司的需求出发 , 根据多年的运维经验 , 开发的一套面向互联网的企业级开源监控产品 , 但是 , 毕竟发展时间短 , 很多功能还不是很顺手 。
Prometheus是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB) 。 目前很火的容器化监控 , 都离不开它 。
还有很多很多 , 没有最好的 , 只有更适合自家的 。
科技看点|我选择的开源运维监控系统现状目前 , 我们这边使用的是nagios和zabbix监控主机很常见服务 , Prometheus主要用于监控容器 。 为什么会有多个呢?这个是历史原因 , 没有一个完全替换另一个 , 不同的系统针对的不一样 。
太多的监控就会出现问题 , 有时候排查一个问题要找好几个系统 , 效率不高 , 而且会导致有些监控出现重复 , 告警信息太多 , 而且不同的系统不好做整合 。
于是 , 决定了开始优化我们的监控系统 , 尽量有相同的指标 , 同一个地方聚合展示 , 可以进行整体的系统分析 。
目前Nagios有进行二次开发 , 自动发现、下发监控脚本 , 与资产管理系统同步等 , 对于状态就监控可以说是非常好用 , 但是对于一些性能指标的收集就没那么容易 , 太多的信息容易被截取 , 虽然是使用ansible进行部署客户端(NRPE) , 但是也不是那么方便 , 影响效率 。
zabbix也有进行了二次开发 , 主要是通过ansible进行管理 , 配合定时任务进行更新操作等 , 不是我二次开发的 , 不是很清楚 , 目前有点烂尾 , 导致监控有点混乱 。
Open-falcon只是测试过 , 感觉不是我的菜就没有继续了 , 而且项目发展好像也比较慢 。
Prometheus目前只用于监控容器 , 而且告警没有进行归类整理 , 主要还是用于性能分析 。
科技看点|我选择的开源运维监控系统选择选择困难!每个监控系统都自己的侧重点 , 都有自己的优势 。 有时候觉得 , 这个可以了 , 又觉得那不行 。 唉~
最终确定使用Prometheus进行监控 , 当然是要进行二次开发的 , 主要是针对自动监控配置管理、自动部署、自动发现、告警管理、报表统计等进行二次开发 , 图表展示肯定首选grafana 。
大致的方向是想好了 , 具体地实现 , 还需要进行一番设计 。 原则上 , 不修改Prometheus及其组件的源码 , 采用API的方式进行管理 , 让升级更容易 。
科技看点|我选择的开源运维监控系统总结你们选择什么监控系统呢?