- 2026/01/23 掲載
X止まって大混乱、クラウドが重すぎる…被害を拡大させないIT運用「たった1つ」の考え方
2025年の相次ぐシステム障害が突きつけた現実
2025年は、クラウドやSaaSの停止が目立った年として記憶されることになった。個別サービスの障害が、依存する別サービスに波及し、利用者の体験としては「インターネット全体が重い」「仕事道具が一斉に使えないことがある」ように見えた。CRNは2025年の大きなクラウド障害を整理し、AWS、Google Cloud、Microsoft、Cloudflare、Salesforceなど複数の事業者を挙げた。StatusGatorも2025年を「世界的なクラウド障害の年」と位置付け、共有基盤の失調が連鎖を生んだと振り返っている。
連鎖の構造を理解するうえで象徴的なのが、Cloudflareの障害だ。Cloudflareの技術ブログによると、2025年12月5日08:47(UTC)に同社ネットワークの一部で大きな障害が始まり、09:12に復旧した。
影響時間は約25分で、Cloudflareが配信するHTTPトラフィックの約28%が条件付きで影響を受けた。原因は攻撃ではなく、React Server Componentsに関する業界全体の脆弱性への対策を進める中で行った設定変更だった。
同社はWAFでリクエストボディを解析するためのメモリバッファを従来の128KBから1MBに増やす変更を、段階的なデプロイで展開していた。ところが内部のWAFテスト用ツールが新しいサイズに対応しておらず、無効化するための第2の変更を実施した。
この第2の変更は全体に数秒で伝播するグローバル設定であり、特定条件下でFL1プロキシのルール処理に潜んでいたバグを踏み、HTTP 500を返す状態に入った。変更を戻すことで09:12に復旧した。ここで重要なのは、変更そのものが小さく見えても、伝播方式と前提条件の組み合わせで影響範囲が急拡大する点である。
【次ページ】連鎖障害を起こす起点と増幅点
IT運用管理全般のおすすめコンテンツ
IT運用管理全般の関連コンテンツ
PR
PR
PR