「監控除了監(Watch)之外,更重要的是控(Control)」——《SRE實踐與開發平台指南》
弔詭的是,我們都說有為系統做監控,但往往我們只做了 Watch,但並沒有真正的 Control。
事實上 Control 確實不容易,當你觀察到系統上陸續出現了 A、B、C 三種現象時,你如何判斷與決定下一步該做些什麼?
在有標準 SOP 可以遵循的狀況下,我們會知道該如何因應,但如果發生的是 SOP 上沒有寫的狀況呢?針對未知現象的第一份 SOP 要從哪裡來呢?
我們都知道監控是維護系統可靠度的必要措施,但你的監控是做心安的,還是真的能幫助你提升可靠度的利器?