2026/01/08

2026-01-08.png

「一套需要人工閱讀郵件和分析警報內容才能決定是否需要採取某種行動的系統,本質上就是一種錯誤。」——《網站可靠性工程》

你們的維運團隊是怎麼知道此刻發生系統或服務事故的?

是看到牆上的大螢幕出現紅燈?是手機收到即時告警簡訊?是負責人時刻盯著電子郵件信箱,看看有沒有標題為 Alert 的信件?

那麼當你們知道發生事故之後,又是如何在最短的時間取得必要的資訊,開始解決問題呢?

監控啊監控,有「監」也有「控」,我們不只需要它幫助我們在第一時間發現異常事故,我們還需要它可以讓我們不費力的管理與控制系統。

說到底,要做到這種理想的「監控」,關鍵在於我們對於系統及服務的「變化與異動」必須具備更高的掌握度,對於系統的理解也需要更深入。

我們都不希望自己總是在「救火」,那麼有什麼是我們可以改善的地方,讓人的智慧、注意力與時間可以從中解放?

如何做到像《SRE》書中說的那樣,可以用較少的人力,但是更智慧、輕省、自動的方式維運龐大又複雜的系統呢?