会員限定
2026/01/23 06:10 掲載

X止まって大混乱、クラウドが重すぎる…被害を拡大させないIT運用「たった1つ」の考え方

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

IT運用管理全般

|

タグをもっとみる

2025年はクラウドやSaaSの停止が相次ぎ、障害の影響が1社の範囲を超えて連鎖する場面が目立った。X（旧Twitter）については、定期的に広範な障害が発生し、毎回、大きな話題となった。Xのように社会全体に大きな影響を及ぼすレベルのサービスを運営している企業はそれほど多くないかもしれないが、自社のクラウドサービスの障害に悩まされている企業は多い。ここでは、こうした問題を解決するための考え方を紹介したい。

クラウドやSaaSの最大の課題は「連鎖障害」だ

（Photo：PeopleImages/Shutterstock.com）

2025年の相次ぐシステム障害が突きつけた現実

　2025年は、クラウドやSaaSの停止が目立った年として記憶されることになった。個別サービスの障害が、依存する別サービスに波及し、利用者の体験としては「インターネット全体が重い」「仕事道具が一斉に使えないことがある」ように見えた。

　CRNは2025年の大きなクラウド障害を整理し、AWS、Google Cloud、Microsoft、Cloudflare、Salesforceなど複数の事業者を挙げた。StatusGatorも2025年を「世界的なクラウド障害の年」と位置付け、共有基盤の失調が連鎖を生んだと振り返っている。

　連鎖の構造を理解するうえで象徴的なのが、Cloudflareの障害だ。Cloudflareの技術ブログによると、2025年12月5日08:47（UTC）に同社ネットワークの一部で大きな障害が始まり、09:12に復旧した。

　影響時間は約25分で、Cloudflareが配信するHTTPトラフィックの約28%が条件付きで影響を受けた。原因は攻撃ではなく、React Server Componentsに関する業界全体の脆弱性への対策を進める中で行った設定変更だった。

【画像付き記事全文はこちら】

運用監視の高度化を進めていく必要がある

（Photo：tadamichi/Shutterstock.com）

　同社はWAFでリクエストボディを解析するためのメモリバッファを従来の128KBから1MBに増やす変更を、段階的なデプロイで展開していた。ところが内部のWAFテスト用ツールが新しいサイズに対応しておらず、無効化するための第2の変更を実施した。

　この第2の変更は全体に数秒で伝播するグローバル設定であり、特定条件下でFL1プロキシのルール処理に潜んでいたバグを踏み、HTTP 500を返す状態に入った。変更を戻すことで09:12に復旧した。ここで重要なのは、変更そのものが小さく見えても、伝播方式と前提条件の組み合わせで影響範囲が急拡大する点である。

問題を大きくしない連鎖障害回避の方法とは？
次ページで詳しく解説します

【次ページ】連鎖障害を起こす起点と増幅点

IT運用管理全般の関連コンテンツ

記事

IT運用管理全般

X止まって大混乱、クラウドが重すぎる…被害を拡大させないIT運用「たった1つ」の考え方

2025年の相次ぐシステム障害が突きつけた現実

IT運用管理全般のおすすめコンテンツ

不遇すぎ…「インフラ運用人材」が評価されない理由、ガートナー流“ド定番”の解決策

APMとは何か？主要19社比較でわかった「オブザーバビリティ」が重要なワケ

プラットフォーム・エンジニアリングとは何か？ガートナーが解説するDevOps進化の要点

システム運用部門にもアジャイルを取り入れる方法、ガートナーが語る真DevOpsとは

複雑化する運用管理の現実解、ガートナーが示す「AIOps」のメリットと限界

IT運用管理全般の関連コンテンツ

開発25人に運用1人で「現場は崩壊寸前」…組織をダメにする壁と「9つの処方箋」大公開

AI時代のシステム障害に「数時間」は許されない。現場を救う、5分で完了するトラブルシューティング

6割が人材不足……「回すだけで精一杯」のIT運用が招く、“見えない損失”が怖すぎる

AIでシステム運用保守はこう変わる！取り組むべき3つのポイント

AIでシステム運用保守はこう変わる！取り組むべき3つのポイント

システム運用高度化「はじめの一歩」

システム運用高度化「はじめの一歩」