今回AWSの障害についてです。
ついこの前、AWSの東京リージョン(AP-NORTHEAST-1)で大きな障害が発生しました。
なので、
さくっと、メモ程度にAWSの障害が起こった際の対応やチェックしたいサイトなどを残していきます。
今回の障害について
今回は、東京リージョン(AP-NORTHEAST-1)で大規模な障害が発生しました。
(マネージャーさん曰く1年に1回あるかないかくらいの規模だったらしい)
私は仕事中で、ちょうどお昼くらいだったでしょうか。
12:30頃
たぶん12時半ころに、1台のインスタンスのアラートが発生しました。
そして、5分以内くらいに2、3台のインスタンスが次々とアラートを起こし、監視ツールはお祭り騒ぎ。笑
13:30〜15時頃
13時を過ぎても、次々とインスタンスがおちていき、AWSコンソールのEC2一覧のステータスチェックは合格しない状況。
インスタンスの状態は、runningだったのですが、ほとんどのインスタンスがステータスが安定しない時間が数時間に渡って続きました。
また、SSH接続は可能なのですが、インスタンスにのっているアプリが安定せず、コマンドが通らない状況でした。
すべてのインスタンスが不安定だったわけでなく、発生から2時間くらい経った時に、あるAZの障害なのではないか?とパターンがだんだん推測できるようになりました。
〜17時頃
色々と不安定なインスタンスをみてみると、AZ ID: apne1-az4の領域にあるインスタンスが不安定なようでした。
以下、サーバーワークスさんもお知らせ欄でほぼリアルタイムで障害について調査しているようでした。
さすが、障害発生中のときでも随時情報が追記されていってました。
AWSの公式からは、ほぼ報告がなかったので、非常に有益な情報といえるでしょう!(また、今は障害時のまとまったスライドも展開されているので、資料になります。)
不安定なインスタンスを停止-> 開始のフローで強制的に再起動させてみても、なかにはステータスチェックに何回も合格せず放浪しているインスタンスが多かったです。
なんやかんやで、AWSに依存しすぎていてほぼ手を動かすことがなくってしまった時間もありました。
また、サーバーの監視ツールももちろんインスタンスにのっています。
これはマルチAZで対応しなければならないと学びました。
AWS公式からの報告は、以下の2つをサイトでチェックすることが可能です。
- AWSコンソールのPersonal Health Dashboard
- AWS Service Health Dashboard - Aug 23, 2019 PDT (↑と同様だが、AWSアカウントがなくても確認できる)
障害発生時、非常に更新が遅いので、Twitterなどで少し情報を取得することをオススメします!笑
もちろんあくまで参考程度にしかできませんが、どんなサービスが影響を受けているのか、知る手段の1つだと思います。
また、障害発生中にAWSのサポートに復旧時間(見込み)を質問しました。
ものの15〜30分くらいで回答は返ってきましたが、回答内容はほぼステータスサイトと同様でした。
で、結局原因は?
原因は、公式からの以下がまとまっているので参考にしてみてください。
簡単にいうと、単一のアベイラビリティゾーンで、オーバーヒート ですね。
冷却装置がこわれて温度が上昇し、サーバーのパフォーマンスが一気に低下したようです。
なんというか、しょうがないとしか言えないよな事象...
EC2も影響を受けましたが、EBSも影響をうけました。
23日の夜(24日の朝方)にスナップショットを取得する処理も、なんか不安定で、取得に失敗したスナップショットがありました。
かるくまとめ
AWSといえど、こういった障害はつきものですね。笑
いつも便利で使用させもらっているので、わたしはまあ、AWSの人も大変だろうに、くらいしか思いませんでした。笑
今回はマルチAZなどで対策したり、リージョン単位での対策も一部必要なのだと実感できた障害となりました。
以上.