会員限定
2019/08/30 掲載

AWSの大規模障害、「やはりクラウドは信頼できない」のか？

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

災害対策（DR）・事業継続（BCP）

|

タグをもっとみる

2019年8月23日12時30分ごろから6～10時間前後、アマゾンのクラウドサービスであるAmazon Web Services（AWS）に障害が発生し、ECサイトやゲームサイトを含む国内多数のサービスに影響が生じた。原因は特定データセンターの制御システムのトラブルで、空調の異常によるサーバのダウン。クラウドはオンプレミスより信頼性が高いと言われ、AWSやGoogle Cloud Platform（GCP）の可用性は99.9％前後を保証しているが、やはりクラウドは信頼できないのだろうか？

執筆：フリーランスライター中尾真二

フリーランスライター中尾真二

フリーランスライター、エディター。アスキーの書籍編集から、オライリー・ジャパンを経て、翻訳や執筆、取材などを紙、Webを問わずこなす。IT系が多いが、たまに自動車関連の媒体で執筆することもある。インターネット（とは言わなかったが）はUUCPのころから使っている。

AWS障害で広域サーバダウン…我々はクラウド時代にどう向かい合えばよいのか？

（Photo/Getty Images）

AWSの国内データセンターで発生したトラブル

　公式発表によれば、AWSで障害が発生したのは東京リージョン（AP-NORTHEAST-1）のとあるアベイラビリティゾーン（AZ、データセンターの集合単位）で、そのAZにある4つのデータセンターのうち、1つの施設だ。障害発生は8月23日金曜日の正午過ぎである。

関連記事

▲ 閉じる ▼ すべて表示

　AWS側の復旧は、夕方の6時過ぎに大部分のサーバが復帰し、その日のうちに障害ほぼ終了した。とはいえ、多くのユーザー企業にとっては午後の業務時間がすべてつぶれ、サービスによっては翌24日昼間になっても復旧できていないものもあった。

　インフラにAWSを利用していたゲームサイトは利用者へのお詫びやフォローが大変だろうし、同じくECサイトは貴重な週末の2日間、営業機会を損失したことになる。

　アマゾン側の対応を含めて、これからさらに問題が広がる可能性もある。しかし、ここで取り上げたいのは、「なぜこのような広域かつ長時間の障害につながったのか」「その原因や対策はないのか」「このような障害が起きるなら業務にクラウドは不向きなのか」という点だ。

　いまやクラウドは、普通のオンプレミスより堅牢でセキュアだと言われている。しかし当然だが、それでも落ちるときは落ちる。今回のトラブルは、多くの企業に「クラウドのリスク管理」について改めて考える契機となっただろう。

空調トラブルの本当の原因は何か？

　まず原因について考察してみよう。

　AWSのサーバ群は大きく「リージョン」と「AZ」に分けることができる。リージョンはほぼ国に対応する分類だが、複数リージョンを持つ国もある。AZはそのうち、実際のデータセンターごとの区切りと思えばよい。

　AWSでは、ユーザーがサーバインスタンスを立ち上げるとき、リージョンやAZを指定することができる。FT（フォールトトレラント：障害耐性）構成にしたいとき、バックアップを冗長化したいとき、各サーバを複数のAZに分散する。アマゾンが示すベストプラクティスでも、AZの分散、仮想ネットワークの分散、バックアップ系の構成など推奨している。

　原因は東京リージョンのうち1つのAZ、つまり東日本のどこかのデータセンターに発生した空調のトラブルだという。データセンターの空調制御システムは、複数のコントローラーで分散制御されるものだった。通常は、コントローラー（制御ホスト）同士が通信しあい、サーバルーム全体の温度調整を行う設計だ。

　アマゾンの発表によれば、制御ホスト群の1つを切り離そうとしたところ、制御ホストのソフトウェアの不具合により停止。制御トラブルの場合のフェールセーフ機能（温度情報を防ぐため制御システムが止まったら空調はフル稼働させる）が機能せず、また緊急時に通常ソフトウェアをバイパスして、制御デバイスを操作する強制排熱シーケンスもうまく動かなかった。

　制御ホストが分散化されていたのにシステムが停止したのは、ホスト1台を切り離したときに多数の通信が発生したためとある。おそらく、制御ホスト間の状態確認や問い合わせのパケットが輻輳（ふくそう）したものと思われる。結局、制御ホスト群が同時に機能しなくなった。

　発端となった制御ホストの切り離しが、故障なのか定期メンテナンスなのか、あるいは別の理由なのか、詳しい発表はない。さらなる原因調査と、それによる対策強化が望まれる。

今回のトラブルが大規模、長時間に及んだのは、AWS側だけの問題ではない？

（Photo/Getty Images）

　今回のトラブルでは、図らずもAWSやMicrosoft Azureのようなインフラ化したクラウドプラットフォームの影響力があらわになってしまった。改めて、クラウド事業者には、リスク管理・対策の強化、点検は必要だろう。

　しかし、今回のトラブルが大規模、長時間に及んだのは、AWS側だけの問題ではないという声もある。

【次ページ】明暗を分けたユーザー側の対策

災害対策（DR）・事業継続（BCP）の関連コンテンツ

記事

災害対策（DR）・事業継続（BCP）

AWSの大規模障害、「やはりクラウドは信頼できない」のか？

AWSの国内データセンターで発生したトラブル

空調トラブルの本当の原因は何か？

災害対策（DR）・事業継続（BCP）のおすすめコンテンツ

7pay問題、運営側の「無知を笑う」前に企業が振り返るべきこと

公取委の狙いはGAFA…ではなく国内企業？データ独占企業へ介入可能に

AI予測が「高精度」とは言い切れない納得理由、台風10号に学ぶ「予測情報の生かし方」

「このままでは見殺しだ」能登地震から半年、無策で進まない復興と被災地の現実

全国が大注目「大分県の防災DX」、日本在住なら知っておきたい「自分の街」の安全性

災害対策（DR）・事業継続（BCP）の関連コンテンツ

物が届かなくなる原因は「2024年問題」だけでない？物流で備えるべき“最悪の脅威”

KDDIの通信障害、「おわびの44円」に垣間見えた「体質」とは？

1兆円企業「たのめーる」の大塚商会が、いま「防災DX」に本気で取り組む納得背景

AWSの大規模障害、「やはりクラウドは信頼できない」のか？

AWSの国内データセンターで発生したトラブル

空調トラブルの本当の原因は何か？

災害対策（DR）・事業継続（BCP）のおすすめコンテンツ

7pay問題、運営側の「無知を笑う」前に企業が振り返るべきこと

公取委の狙いはGAFA…ではなく国内企業？ データ独占企業へ介入可能に

AI予測が「高精度」とは言い切れない納得理由、台風10号に学ぶ「予測情報の生かし方」

「このままでは見殺しだ」能登地震から半年、無策で進まない復興と被災地の現実

全国が大注目「大分県の防災DX」、日本在住なら知っておきたい「自分の街」の安全性

災害対策（DR）・事業継続（BCP）の関連コンテンツ

物が届かなくなる原因は「2024年問題」だけでない？ 物流で備えるべき“最悪の脅威”

KDDIの通信障害、「おわびの44円」に垣間見えた「体質」とは？

1兆円企業「たのめーる」の大塚商会が、いま「防災DX」に本気で取り組む納得背景

公取委の狙いはGAFA…ではなく国内企業？データ独占企業へ介入可能に

物が届かなくなる原因は「2024年問題」だけでない？物流で備えるべき“最悪の脅威”