- 会員限定
- 2021/10/28 掲載
Facebookが全面ダウン、復旧のため「直接データセンターに乗り込んで」対応していた
ITジャーナリスト/Publickeyブロガー。大学でUNIXを学び、株式会社アスキーに入社。データベースのテクニカルサポート、月刊アスキーNT編集部 副編集長などを経て1998年退社、フリーランスライターに。2000年、株式会社アットマーク・アイティ設立に参画、オンラインメディア部門の役員として2007年にIPOを実現、2008年に退社。再びフリーランスとして独立し、2009年にブログメディアPublickeyを開始。現在に至る。
下記は同社CTO Mike Schroepfer氏のツイート。
Yesterday’s outage across our products was a bad one, so we’re sharing some more detail here on exactly what happened, how it happened, and what we’re learning from it: https://t.co/IXRt572h4c
— Mike Schroepfer (@schrep) October 5, 2021
何らかの原因でFacebookのバックボーンネットワークが全面的にダウン
Facebookの解説を順にひもときつつ、全面ダウンはなぜ起きたのか、どのように復活したのかを見ていきましょう。Facebookは世界中にデータセンターを構築しており、専用のバックボーンネットワークでそれぞれが接続されています。そのバックボーンネットワークの定期メンテナンスが今回の全面ダウンの引き金になったと説明されています。
以下、英語の部分は同社の報告からの引用、続いてPublickeyによる日本語訳を紹介しています。
During one of these routine maintenance jobs, a command was issued with the intention to assess the availability of global backbone capacity, which unintentionally took down all the connections in our backbone network, effectively disconnecting Facebook data centers globally.
定期メンテナンスの作業中、グローバルなバックボーンネットワークの容量を確認する目的でコマンドを発行したところ、意図せずにバックボーンネットワークのすべての接続が停止し、事実上、世界中のFacebookデータセンターが切断されてしまいました。
なぜこのコマンドがバックボーンネットワークの接続停止を引き起こしたのかについての解説はありませんでしたが、今回の詳細報告の1つ前の同社からの報告「Update about the October 4th outage」では、バックボーンルーターの設定変更が原因と報告されています。ですので、メンテナンス時のコマンド実行が何らかの設定変更を引き起こした可能性が高いと思われます。
ただし、非常に重要なバックボーンネットワークに対して不用意なコマンドが実行されないよう、Facebookにはコマンド実行前にそのコマンドを監査する仕組みがあったにもかかわらず、その監査の仕組みにバグがあったため、今回のコマンドはその監査をすり抜けてしまったとも説明されています。
とにかく、Facebookのバックボーンネットワークが停止し、各地のデータセンターは相互の連携が絶たれました。
Facebookの内部ではさまざまな処理がグローバルでの分散処理や障害発生時のためのグローバルなデータレプリケーションなどが行われいることは間違いありません。各データセンターとも内部では大量のワーニングやエラーが発生したことでしょう。
障害を検知し、Facebook全体がインターネットから離脱
Facebookのデータセンター群全体とインターネットとのつなぎ目の役割を担うのがDNSサーバです。そしてこのDNSサーバは、データセンターの障害を検知した場合にはそのデータセンターをインターネットから切断する仕組みを備えていました。今回はバックボーンネットワーク全体が停止したため、DNSサーバとすべてのデータセンターとの通信も途絶します。その結果、このDNSサーバはFacebook全体をインターネットから離脱させます。
To ensure reliable operation, our DNS servers disable those BGP advertisements if they themselves can not speak to our data centers, since this is an indication of an unhealthy network connection. In the recent outage the entire backbone was removed from operation, making these locations declare themselves unhealthy and withdraw those BGP advertisements.
Facebookの信頼性維持のために、DNSサーバーがデータセンターと通信ができなくなった場合には、ネットワーク接続が正常でないとしてBGPによる経路広告を停止します。今回の障害ではバックボーン全体が停止したため、これらの拠点すべてが自らが不健全であると宣言したことになり、これがBGPの経路広告の停止につながりました。
こうしてインターネットからFacebookが離脱し、全面ダウンとなりました。報告によると、これらは極めて短時間に発生(All of this happened very fast.)したとのことです。
【次ページ】 データセンターの厳重なセキュリティで、エンジニアがなかなか中へ入れず
関連コンテンツ
PR
PR
PR