2026/05/03 | 重新認識 DevOps

每日一句

2026 年 05 月 03 日

「從 SRE 的經驗可知大約 70% 的系統事件是因部署變更而觸發」——《網站可靠性工程》

Knock Knock！有沒有哪位 SRE 可以回答我們，是不是真的有七成的事故，都是因為部署了新的變更而導致的？

就算沒有 SRE 回答我們，單看這幾年重要事故的新聞報導，還真有不少重大事件都是因為「部署新的變更」導致的。

例如：2024/07/19 CrowdStrike 因為部署了新的組態配置，導致全球大量 Windows 出現藍白畫面的重大事件。

例如：2025/06/12 Google Cloud 的全球大當機，追溯原因也是因為部署一個新版程式碼後埋下了地雷。

例如：2026/02/20 Cloudflare 的 BYOIP 服務中斷事故，也同樣是因為部署了新的變更，更諷刺的是，這項變更的目標居然是為了提升他們在程式碼與組態配置的韌性。

所以啦，你看連大廠都會因為「部署變更」而發生事故，更不用說其他不同規模的企業了。

畢竟每一次的「變更」都是針對現有系統的一次擾動、一次風險。

變更的範圍越大、變更的目標越是核心與關鍵系統、變更的相依性越複雜，其風險也就越高。

所以 DevOps / SRE 提倡像是 Blue-Green Deployment、Feature Toggles、Canary Release，也提倡像是 Infrastructure as code、Policy as code、甚至是 Everything as code。

這些倡議都包含了相同的目標，試圖透過各種流程、實踐方法與技術，來控制變更的影響範圍，進而讓風險可以被隔離與管理。

你們團隊上一次的意外事故也是因為「部署新變更」造成的嗎？還是你們通通推給那位不存在的駭客攻擊呢？（咦）