2025/10/31

10-31.png

「一般來說,任何軟體系統都不該一昧地追求 100% 可靠」——《網站可靠性工程》

零事故、零故障,作為口號喊一喊聽起來很爽!

但如果這樣的要求被壓在你的團隊身上,恐怕你只會想要翻白眼吧?

然而可怕的是,我們在現實職場中,還不只一次聽過類似的故事?

求神拜佛加上綠色乖乖的超自然力量都無法做到 100% 可靠,卻期望團隊在沒有資源的前提下,做到零事故、零故障;如果真讓你做到了,那可真是神蹟奇事!

是時候放下不切實際的幻想,學習一下 Google SRE 提倡的科學方法。

接受你團隊的資源有限之事實,建立錯誤預算(Error budget)的觀念。

找到你們團隊可以接受的 SLA、SLO,將風險與事故轉換成可以被評估衡量的數字及指標。

有了數字作為基準,接下來才有辦法進一步的計劃與推行各種可靠性的改善。

就好比減肥的第一步總該要先量個體重,老是喊著要瘦,那你到底是想要瘦多少呢?