文章图片
作为运维监控做不好 , 救火救到老 。 这话是没毛病 , 监控做不好 , 没有预警 , 等到发现问题已经影响客户业务了 , 这时候就真的是热锅蚂蚁团团转了 。 监控有多重要相信稍有的了解的朋友都是清楚的 。 总之有一个完善的监控系统是必要的 , 对系统不间断实时监控 , 能够保证业务系统持续稳定可靠运行 , 目标系统状态了如指掌 。
监控系统也有很多 , 目前我这边常用的事zabbix监控硬件设备、容器类用prometheus , 关于这两个系统后续想写介绍 。 但是有监控系统具体监控什么 , 有什么指标对象吗 , 这个大同小异 , 但是每个公司都会根据业务有所差别 , 其他的类似硬件、网络、流量、性能、安全监控后面文章一一展开 。 今天我来总结下对于各种应用的监控 , 有哪些监控项目 。
应用监控是监控系统中比较重要的项目 , 因此现在有专门的岗位设立 。 大家感兴趣可以多多研究 , 一门深入准有用武之地 。
域名:一般是域名状态监控 , 首页的状态码 , 404、403、502反正不是200的都可以报警的 。
SLB(负载均衡)nginx:可以监控的项目有域名访问量 , 特定url访问量、http状态码(错误码监控)、响应时间(延迟)、错误日志监控、流量IO
关系型数据库比如MySQL:监控端口存活状态、连接的数量、CPU/内存/磁盘空间使用率、增删改查每秒请求数(QPS)、锁表数量、从库同步状态、读写状态、同步延迟等
Redis:端口存活状态、连接数量、内存、CPU、QPS、主从状态、慢日志
MongoDB:IOPS使用率适合重要的指标 , 这玩意高了业务响应必缓慢、连接数量、增删改查QPS、内存使用情况、慢日志、主从库延迟、磁盘使用率、时延过大的请求次数
Kafka:端口存活、集群状态(zookeeper)、消费组未处理队列长度、topic指标、consumer指标
zookeeper: 主要是状态监控:端口存活、集群状态、超时时间、路径可读
RabbitMQ:端口存活、节点状态、单个队列、未消费队列
ElasticSearch:集群状态、端口存活、集群节点数、索引数量(分片索引、未分片索引数量)、查询写入QPS、线程数量
VPN:带宽使用情况、丢包率、状态监控、用户监控
容器:node(cpu、内存、IO、网络、磁盘等)(zabbix可以监控)、deployment、pod、endpoint、service、statefulset这些k8s自带可以探测、用prometheus配合grafana监控蛮好!
监控设置之了监控项、在设置一个阈值、达到然后报警、报警方式就多了、电话、邮件、短信、企微机器人、钉钉等都可以实现报警 , 发现故障及时解决 。 但最后有一套预警系统 , 可以从日志分析开始 , 将错误日志实时抓取、实时报送到开发人员手中 , 这样子会大大提高故障解决效率 。
今天就暂时说这些 , 欢迎各位朋友补充 , 共同进步!
【CPU|公司应用监控做了吗?】
- 加州大学|马斯克脑机接口公司被指虐猴,参加实验的23只猴子死了15只
- 智能|经纬、高瓴联合领投,机器视觉传感器公司深视智能完成数亿元B+轮融资
- CPU|成功!vivo S12 Pro挑战专业摄影团队,照片质量一绝
- CPU|Intel要推CPU氪金:花钱解锁额外功能、Linux内核率先支持
- CPU|RTX 4090性能表现/发售时间齐曝光:性能猛兽价格更贵了
- Windows11|Windows 11版“您的手机”应用将更新! 任务栏新功能截图曝光
- CPU|别只看跑分和处理器,买手机搞清这几点,要少花冤枉钱
- CPU|2022中端处理器选谁好?R5 5600X大战i5 12400
- type-c|互联网公司纷纷裁员,寒冬真的来了吗?
- CPU|商用本处理器选AMD还是英特尔?10项实际应用测试大比拼