「一般來說,任何軟體系統都不該一昧地追求 100% 可靠」——《網站可靠性工程》
零事故、零故障,作為口號喊一喊聽起來很爽!
但如果這樣的要求被壓在你的團隊身上,恐怕你只會想要翻白眼吧?
然而可怕的是,我們在現實職場中,還不只一次聽過類似的故事?
求神拜佛加上綠色乖乖的超自然力量都無法做到 100% 可靠,卻期望團隊在沒有資源的前提下,做到零事故、零故障;如果真讓你做到了,那可真是神蹟奇事!
是時候放下不切實際的幻想,學習一下 Google SRE 提倡的科學方法。
接受你團隊的資源有限之事實,建立錯誤預算(Error budget)的觀念。
找到你們團隊可以接受的 SLA、SLO,將風險與事故轉換成可以被評估衡量的數字及指標。
有了數字作為基準,接下來才有辦法進一步的計劃與推行各種可靠性的改善。
就好比減肥的第一步總該要先量個體重,老是喊著要瘦,那你到底是想要瘦多少呢?