お疲れ様です。satimoです。
2020年10月1日に東京証券取引所(東証)でシステム障害が発生し、
終日取引ができないといったことが起きました。
※10月5日に原因の発表がありましたが、『障害発生時に切り替えるための設定が足りていなかった』とのことでした。
同日に記者会見があり、遅れながらですが会見を聞いたのでその感想を書いています。
今回の障害で被害にあった方には大変申し訳ありませんが、
東京証券取引所とベンダーの富士通がとった対応は素晴らしかったと思います。
障害内容と対応方法について
障害内容について
『共有ディスク装置のメモリ装置に障害が発生し、フェールオーバーしなかった』
といったものでした。
簡単に言うと正常な動作としては1号機のマシンで動作していて、
障害がでたら自動的に2号機のマシンに切り替わって動作させるが、
今回は2号機に切り替わらなかった
というものになります。
どうやら9時26分に手動で切り替えているので取引はできる状況にあったかもしれませんが、
安全を考慮して終日取引を停止させる判断をしたようです。
ここ重要!
システム屋さんだと常識かもしれませんが、重要なシステム程、
障害が発生することが前提になって設計されています。
障害が発生した時にどうやって利用者がシステムを使える状態を維持するか?
といったことが考えられているということです。
会見にもありましたが、
『過去に何回も壊れたことはあります。』
『ただ、マーケットへの影響はありませんでした。』
そういうシステムが構築されているということです。
対応
『障害が発生したメモリ装置の交換』
『当面の間、人的な監視を実施。異常時には手動で切り替えを実施する。』
といったものでした。
まぁ原因が特定できるのであれば一般的な現場でも同様のことを行うかなといった感想です。
監視している方々、数日間ドキドキだと思います。
本当に心から何もないことを願います。
感想
残念ながら、完璧なシステムなんてないんですよ。。。
『ネバーストップ』という言葉が出てきましたが、残念ながら、無理なんですよ。
だからこそ『止まった時にどう対応するか』が重要になってきます。
今回はその対応が取引を終日停止させるというものでした。
東京証券取引所のシステムなので、トップレベルの
『止まらないように設計されたシステム』が稼働していると思います。
あわせて、稼働前+定期的にテストは行っていると思います。
テストを行ったとしても、例えば1号機のこの部品が壊れた時の動作は?
なんて言ったときに実際にその部品を壊すようなテストはしないと思います。
したとしても、新しくセットした部品に不具合が。。。
なんてこともあるので、一生終わらないわけですよ。
障害検知から発表までの時間が1時間35分です。
※時系列について(https://xtech.nikkei.com/atcl/nxt/news/18/08875/)
7時4分 障害検知
8時39分 売買停止をすることを全利用者向けにWebサイト上で通知
どう思いますか?
私は早いと思いました。
2号機は動作できている状況下でしかも、これだけのシステムを停止させる判断は
なかなかできないと思います。
正解か、間違いだったかはわかりませんが、少なくとも1時間36分の間に
対応方針を決めたことになります。
記者の質問にイライラしました
こういう記者会見だとどうしても悪者にしたいんだな。って印象です。
印象に残ったのが、『2号機に手動で切り替えて運用していれば、市場に影響を与えなかったのでは?』といった質問です。
障害が実際に起きているので、絶対に言えませんが、
『無理やり稼働して二次被害が起きたらどうしてくれるんじゃ!!!!』って言いたくなります。
あとは、私がシステム屋さんっていうのもあるかもしれませんが、
理解が。。。から始まる記者がすごく多かった気がしましたし、同じ質問が多い気がしました。
説明する方々はめちゃくちゃわかりやすく説明してくれていたと思いますし、
言葉も選んで(レベルを下げて)説明してくれていたと思いました。
本当に新入社員に見てもらってもよいかも。
社長かっけぇ~
社長の記者会見で
『あくまでも富士通さんは機器を納入しているベンダーさんである。』
『市場運営者としての責任は私共に全面にあると考えている。』
『損害賠償は考えていない』
といった言葉が出ました。
おそらくですが、富士通さんの仕事ぶりを評価しての発言だと思います。
たずさわったエンジニアの方は感涙ではないでしょうか?
こんなことがあった後ですが、モチベーションが段違いだと思います。
というわけで、今回は以上です。
読んでいただき、ありがとうございます。
コメント