2026/05/01

2026 年 05 月 01 日

「專注在加速恢復而非預防意外,才是穩賺不賠的生意。」——《網站可靠性工程工作手冊》

關於風險,我們經常會有一種錯誤的執著,認為只要有足夠的準備,就可以將意外降到最低。

這導致我們很容易陷入「過度預防」的心理,把大量心力都押注在預防意外上,卻忽略了加快恢復速度這件事。

但不管怎麼預防,意外總是遵守莫非定律的悄悄降臨。

因此 SRE 提出了一個更務實的想法,既然故障必然會發生,那麼我們應該將目標改為提升系統的「韌性」。

預防事故只會淪為無止盡的成本消耗,因為你試圖對抗的是無限的未知。

但提升系統恢復的速度,則是一項划算的投資,因為你可以具體的劃定要達成多久時間內恢復系統的目標。

讓團隊對於系統擁有更深的掌握度,設立 SLO / SLA 標準,以此建立快速恢復系統的能力與應變機制。

當你的服務炸鍋時,你有辦法快速的定位出事故範圍嗎?你有能力快速恢復指定範圍的系統嗎?