Prometheus機器:172.27.143.155
alertmanager機器:172.27.143.150
創新互聯基于成都重慶香港及美國等地區分布式IDC機房數據中心構建的電信大帶寬,聯通大帶寬,移動大帶寬,多線BGP大帶寬租用,是為眾多客戶提供專業服務器托管報價,主機托管價格性價比高,為金融證券行業
雅安機房托管,ai人工智能服務器托管提供bgp線路100M獨享,G口帶寬及機柜租用的專業成都idc公司。
Prometheus 告警分為兩部分。Prometheus 服務器中的告警規則會向Alertmanager發送告警。
然后,Alertmanager 處理這些告警信息,包括沉默,禁止,聚合和發送到電子郵件、PagerDuty和HipChat等。
設置告警和通知的主要步驟是:
設置并配置Alertmanager
配置Prometheus和Alertmanager通信
在Prometheus中創建告警規則
Alertmanager處理客戶端應用程序(如Prometheus服務器)發送的警報。
它負責重復數據刪除,分組并將它們路由到正確的接收方集成,例如電子郵件,PagerDuty或OpsGenie。 它還處理警報的沉默和抑制。
一、上面配置了Prometheus和grafana服務在155機器上面
接下來配置 alermanager服務
1、wget https://github.com/prometheus/alertmanager/releases/download/v0.20.0/alertmanager-0.20.0.linux-amd64.tar.gz
2、tar zxf alertmanager-0.20.0.linux-amd64.tar.gz
3、mv alertmanager-0.20.0.linux-amd64 /usr/local/alertmanager
4、vim alertmanager.yml
5、vim /etc/alertmanager/template/wechat.tmpl
{{ define "wechat.default.message" }}
{{ range $i, $alert :=.Alerts }}
========監控報警==========
告警狀態:{{ .Status }}
告警級別:{{ $alert.Labels.severity }}
告警類型:{{ $alert.Labels.alertname }}
告警應用:{{ $alert.Annotations.summary }}
告警主機:{{ $alert.Labels.instance }}
告警詳情:{{ $alert.Annotations.description }}
觸發閥值:{{ $alert.Annotations.value }}
告警時間:{{ $alert.StartsAt.Format "2006-01-02 15:04:05" }}
========end==========
{{ end }}
{{ end }}
6、完成之后啟動服務
nohup ./alertmanager &
接下來配置Prometheus服務
修改配置文件
需要創建一個 rules目錄
里面又2個文件,一個時主機監控,一個時容器監控
1)cat host_sys.yml
groups:
- name: Host
rules:- alert: Memory Usage
expr: (node_memory_MemTotal_bytes - (node_memory_MemFree_bytes + node_memory_Buffers_bytes + node_memory_Cached_bytes)) / node_memory_MemTotal_bytes * 100 > 2
for: 1m
labels:
name: Memory
severity: Warning
annotations:
summary: " {{ $labels.appname }} "
description: "宿主機內存使用率超過80%."
value: "{{ $value }}" - alert: CPU Usage
expr: sum(avg without (cpu)(irate(node_cpu_seconds_total{mode!='idle'}[5m]))) by (instance,appname) > 0.05
for: 1m
labels:
name: CPU
severity: Warning
annotations:
summary: " {{ $labels.appname }} "
description: "宿主機CPU使用率超過65%."
value: "{{ $value }}" - alert: HostLoad
expr: node_load5 > 4
for: 1m
labels:
name: Load
severity: Warning
annotations:
summary: "{{ $labels.appname }} "
description: " 主機負載5分鐘超過4."
value: "{{ $value }}" - alert: Filesystem Usage
expr: 1-(node_filesystem_free_bytes / node_filesystem_size_bytes) > 0.3
for: 1m
labels:
name: Disk
severity: Warning
annotations:
summary: " {{ $labels.appname }} "
description: " 宿主機 [ {{ $labels.mountpoint }} ]分區使用超過80%."
value: "{{ $value }}%" - alert: Diskio writes
expr: irate(node_disk_writes_completed_total{job=~"Host"}[1m]) > 50
for: 1m
labels:
name: Diskio
severity: Warning
annotations:
summary: " {{ $labels.appname }} "
description: " 宿主機 [{{ $labels.device }}]磁盤1分鐘平均寫入IO負載較高."
value: "{{ $value }}iops" - alert: Diskio reads
expr: irate(node_disk_reads_completed_total{job=~"Host"}[1m]) > 5
for: 1m
labels:
name: Diskio
severity: Warning
annotations:
summary: " {{ $labels.appname }} "
description: " 宿主機 [{{ $labels.device }}]磁盤1分鐘平均讀取IO負載較高."
value: "{{ $value }}iops" - alert: Network_receive
expr: irate(node_network_receive_bytes_total{device!~"lo|bond[0-9]|cbr[0-9]|veth.|virbr.|ovs-system"}[5m]) / 1048576 > 5
for: 1m
labels:
name: Network_receive
severity: Warning
annotations:
summary: " {{ $labels.appname }} "
description: " 宿主機 [{{ $labels.device }}] 網卡5分鐘平均接收流量超過5Mbps."
value: "{{ $value }}Mbps" - alert: Network_transmit
expr: irate(node_network_transmit_bytes_total{device!~"lo|bond[0-9]|cbr[0-9]|veth.|virbr.|ovs-system"}[5m]) / 1048576 > 5
for: 1m
labels:
name: Network_transmit
severity: Warning
annotations:
summary: " {{ $labels.appname }} "
description: " 宿主機 [{{ $labels.device }}] 網卡5分鐘內平均發送流量超過5Mbps."
value: "{{ $value }}Mbps"
2) cat container_sys.yml
groups:
- name: Container
rules:- alert: CPU Usage
expr: (sum by(name,instance) (rate(container_cpu_usage_seconds_total{image!=""}[5m]))*100) > 80
for: 1m
labels:
name: CPU
severity: Warning
annotations:
summary: "{{ $labels.name }} "
description: " 容器CPU使用超過80%"
value: "{{ $value }}%" - alert: Memory Usage
expr: (container_memory_usage_bytes{name=~".+"} - container_memory_cache{name=~".+"}) / container_spec_memory_limit_bytes{name=~".+"} * 100 > 80
for: 1m
labels:
name: Memory
severity: Warning
annotations:
summary: "{{ $labels.name }} "
description: " 容器內存使用超過80%."
value: "{{ $value }}%" - alert: Network_receive
expr: irate(container_network_receive_bytes_total{name=~".+",interface=~"eth.+"}[5m]) / 1048576 > 5
for: 1m
labels:
name: Network_receive
severity: Warning
annotations:
summary: "{{ $labels.name }} "
description: "容器 [{{ $labels.device }}] 網卡5分鐘平均接收流量超過5Mbps."
value: "{{ $value }}Mbps" - alert: Network_transmit
expr: irate(container_network_transmit_bytes_total{name=~".+",interface=~"eth.+"}[5m]) / 1048576 > 5
for: 1m
labels:
name: Network_transmit
severity: Warning
annotations:
summary: "{{ $labels.name }} "
description: "容器 [{{ $labels.device }}] 網卡5分鐘平均發送流量超過5Mbps."
value: "{{ $value }}Mbps"
配置完成之后重啟一下Prometheus服務
等一會驗證效果
恢復是下面這個
監控容器就完成了
另外有需要云服務器可以了解下創新互聯cdcxhl.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業上云的綜合解決方案,具有“安全穩定、簡單易用、服務可用性高、性價比高”等特點與優勢,專為企業上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。
文章題目:如何在alertmanager報警中添加企業微信監控報警-創新互聯
轉載來于:http://m.newbst.com/article30/dpecso.html
成都網站建設公司_創新互聯,為您提供小程序開發、網站改版、響應式網站、網站內鏈、企業網站制作、動態網站
廣告
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源:
創新互聯