2026/05/03

2026 年 05 月 03 日

「從 SRE 的經驗可知大約 70% 的系統事件是因部署變更而觸發」——《網站可靠性工程》

Knock Knock!有沒有哪位 SRE 可以回答我們,是不是真的有七成的事故,都是因為部署了新的變更而導致的?

就算沒有 SRE 回答我們,單看這幾年重要事故的新聞報導,還真有不少重大事件都是因為「部署新的變更」導致的。

例如:2024/07/19 CrowdStrike 因為部署了新的組態配置,導致全球大量 Windows 出現藍白畫面的重大事件。

例如:2025/06/12 Google Cloud 的全球大當機,追溯原因也是因為部署一個新版程式碼後埋下了地雷。

例如:2026/02/20 Cloudflare 的 BYOIP 服務中斷事故,也同樣是因為部署了新的變更,更諷刺的是,這項變更的目標居然是為了提升他們在程式碼與組態配置的韌性。

所以啦,你看連大廠都會因為「部署變更」而發生事故,更不用說其他不同規模的企業了。

畢竟每一次的「變更」都是針對現有系統的一次擾動、一次風險。

變更的範圍越大、變更的目標越是核心與關鍵系統、變更的相依性越複雜,其風險也就越高。

所以 DevOps / SRE 提倡像是 Blue-Green Deployment、Feature Toggles、Canary Release,也提倡像是 Infrastructure as code、Policy as code、甚至是 Everything as code。

這些倡議都包含了相同的目標,試圖透過各種流程、實踐方法與技術,來控制變更的影響範圍,進而讓風險可以被隔離與管理。

你們團隊上一次的意外事故也是因為「部署新變更」造成的嗎?還是你們通通推給那位不存在的駭客攻擊呢?(咦)