• 2026/01/23 掲載

X止まって大混乱、クラウドが重すぎる…被害を拡大させないIT運用「たった1つ」の考え方

会員(無料)になると、いいね!でマイページに保存できます。
2025年はクラウドやSaaSの停止が相次ぎ、障害の影響が1社の範囲を超えて連鎖する場面が目立った。X(旧Twitter)については、定期的に広範な障害が発生し、毎回、大きな話題となった。Xのように社会全体に大きな影響を及ぼすレベルのサービスを運営している企業はそれほど多くないかもしれないが、自社のクラウドサービスの障害に悩まされている企業は多い。ここでは、こうした問題を解決するための考え方を紹介したい。
photo
クラウドやSaaSの最大の課題は「連鎖障害」だ
(Photo:PeopleImages/Shutterstock.com)

2025年の相次ぐシステム障害が突きつけた現実

 2025年は、クラウドやSaaSの停止が目立った年として記憶されることになった。個別サービスの障害が、依存する別サービスに波及し、利用者の体験としては「インターネット全体が重い」「仕事道具が一斉に使えないことがある」ように見えた。

 CRNは2025年の大きなクラウド障害を整理し、AWS、Google Cloud、Microsoft、Cloudflare、Salesforceなど複数の事業者を挙げた。StatusGatorも2025年を「世界的なクラウド障害の年」と位置付け、共有基盤の失調が連鎖を生んだと振り返っている。

 連鎖の構造を理解するうえで象徴的なのが、Cloudflareの障害だ。Cloudflareの技術ブログによると、2025年12月5日08:47(UTC)に同社ネットワークの一部で大きな障害が始まり、09:12に復旧した。

 影響時間は約25分で、Cloudflareが配信するHTTPトラフィックの約28%が条件付きで影響を受けた。原因は攻撃ではなく、React Server Componentsに関する業界全体の脆弱性への対策を進める中で行った設定変更だった。

画像
【画像付き記事全文はこちら】
運用監視の高度化を進めていく必要がある
(Photo:tadamichi/Shutterstock.com)

 同社はWAFでリクエストボディを解析するためのメモリバッファを従来の128KBから1MBに増やす変更を、段階的なデプロイで展開していた。ところが内部のWAFテスト用ツールが新しいサイズに対応しておらず、無効化するための第2の変更を実施した。

 この第2の変更は全体に数秒で伝播するグローバル設定であり、特定条件下でFL1プロキシのルール処理に潜んでいたバグを踏み、HTTP 500を返す状態に入った。変更を戻すことで09:12に復旧した。ここで重要なのは、変更そのものが小さく見えても、伝播方式と前提条件の組み合わせで影響範囲が急拡大する点である。

画像
問題を大きくしない連鎖障害回避の方法とは?
次ページで詳しく解説します
【次ページ】連鎖障害を起こす起点と増幅点
関連タグ タグをフォローすると最新情報が表示されます
あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

基本情報公開時のサンプル画像
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます

基本情報公開時のサンプル画像