新增告警的規則,其中有幾個大規則,分別是alert、template及notification。
alert 設定告警的標準,譬如CPU>90%要告警。
template 設定告警的樣式,譬如告警要包含主機名、事件名稱或其他應載事項。
notification 設定告警的方式,譬如告警要使用Email方式。
產生一個告警的範例的過程
a. 進到Bosun的管理介面,點選「Item」後再選你要建立告警的Hosts。
b. 進入後,點選「Available Metrics」,選擇你要監控告警的項目
c. 本例選擇針對「os.cpu」進行監控,按「Rule」就會產生規則。
d. 它會自動跳轉到「Rule Editor」,並自動產生template test及alert test,你可以基於範例進行客製規則。
e. 針對alert test做了以下修改,設定警告和嚴重的標準值。
$benchmark用來存放數值,warn是警告,crit是嚴重,如果數值超過60,就符合警告,超過80,就符合嚴重。
template = test是指告警的樣式是套用template test。
f. 警告和嚴重要寄Email通知,做了以下修改。
加入了warnNotification及critNotification,通通都指向了email.notification,而email.notification中email設定了告警信的收件者,
next = email.notification和timeout = 30m是配套,意思是每30分鐘就發一次告警信,如果系統中的警告沒人確認取消。
g. 原始產生的template test是比較簡單的,我要在裡面加上告警時的圖,所以修改成
h. 當alert、template、notification都完成後,就可以按「Validate」來驗證語法正不正確,正確會出現綠色的Valid。
i. 接著驗證語法執行結果,按「Test test」,下方就會出現執行結果,本例的結果是normal,表示正常無告警情況。
j. 請將整段語法或修改過的語法,放進你的bosun.conf裡,設定內容更新,並重啟docker container後,規則就正式生效了。
k. 將告警規則套用到所有主機
請將你規則中的host = [主機名稱] 改成host = *,那這條規則就會對每台主機進行核對。
l. 同一條規則,對不同主機有不同的告警標準,使用lookup語法,裡面有二個entry,它們的host是不同的,而不同的host有不同的warn和crit的標準,
而在alert中也使用lookup來載入標準,則對每個entry定義的host就會使用相對應的標準來決定是否有超過告警門檻。
以上為基本的告警規則建立方法,如果需要更進階的設定,請參考官網的教學文件。
留言列表