kubernetes-Prometheus基于邮件告警
1、告警逻辑框架Prometheus的告警逻辑框架:
1)指标获取:Prometheus从监控目标中获取指标数据;
2)设置规则:运维人员根据运维管理需要 , 设置告警规则(rule_files);
3)推送告警:在Pometheus中指定指定告警规则 , 并设置告警服务器(prometheus.yml) , 当发生符合告警的规则时 , Prometheus就会将告警信息发送给设置的告警服务器;
4)发送告警:在告警服务器中 , 设置告警路由和告警接收 , 告警服务器将会根据告警管理配置将告警信息发送给告警接收器(email等);
5)处理告警:运维人员接收到告警信息后 , 对告警信息进行处理 , 保证被监控对象的正常运行 。
2、指定告警服务和规则文件告诉Promentheus , 将告警信息发送给那个告警管理服务 , 以及使用那个告警规则文件 。 这里的告警服务在Kubernetes中部署 , 对外提供的服务名称为alertmanager , 端口为9093 。 告警规则文件为“/etc/prometheus/rules/”目录下的所有规则文件 。
global: scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute. evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute. # scrape_timeout is set to the global default (10s).# 指定告警服务器alerting: alertmanagers: - static_configs: - targets: - alertmanager:9093# 指定告警规则文件rule_files: - "/etc/prometheus/rules/*.yml" # - "second_rules.yml"# A scrape configuration containing exactly one endpoint to scrape:# Here it's Prometheus itself.scrape_configs: # The job name is added as a label `job=
3、设置告警规则设置告警的规则 , Prometheus基于此告警规则 , 将告警信息发送给告警服务 。 这将未启动的实例信息发送给告警服务 , 告知哪些实例没有正常启动 。
#rulesgroups: - name: node-rules rules: - alert: InstanceDown # 告警名称expr: up == 0 # 告警判定条件for: 3s # 持续多久后 , 才发送labels: # 标签team: k8sannotations: # 警报信息summary: "{{$labels.instance}}: has been down"description: "{{$labels.instance}}: job {{$labels.job}} has been down "
4、设置告警信息路由和接受器这里设置通过邮件接收告警信息 , 当告警服务接收到告警信息后 , 会通过邮件将告警信息发送给被告知者 。
global: resolve_timeout: 5m smtp_smarthost: 'smtp.163.com:25' # 发送信息邮箱的smtp服务器代理 smtp_from: 'xxx@163.com' # 发送信息的邮箱名称 smtp_auth_username: 'xxx' # 邮箱的用户名 smtp_auth_password: 'SYNUNQBZMIWUQXGZ' # 邮箱的密码或授权码route: group_by: ['alertname'] group_wait: 10s group_interval: 10s repeat_interval: 1h receiver: 'email'receivers: - name: 'email' email_configs: - to: 'xxxxxx@aliyun.com' # 接收告警的邮箱 headers: { Subject: "[WARN] 报警邮件"} # 接收邮件的标题inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'dev', 'instance']
- 文件系统(02):基于SpringBoot管理Xml和CSV
- 基于本质安全的化工行业工业互联网平台“星智链”发布
- 面向销售自动化的基于数据扩增和真实图像合成的鲁棒多目标检测
- 基于Ansible和CodeDeploy的DevOps方案
- 内容|2020腾讯ConTech大会:基于信赖,30位嘉宾带用户打开眼界
- 快节奏时代用什么设备办公 高效便捷显示器推荐
- 基于PCA和t-SNE可视化词嵌入
- Nautilus:一款基于语法的反馈式模糊测试工具
- AMD欲推出基于Navi 23/24的Radeon RX 6000M移动GPU
- 基于python的opencv图像处理实现对斑马线的检测