NEWSお知らせ

もしあなたが東証のCIOだったらどうした? 〜あの記者会見から学ぶインシデントレスポンスのスキル〜

2020年10月5日

レポート


日本CTO協会は「技術」を軸に規模や業種の異なる様々な人や組織が集まっているコミュニティです。会員は本社団の活動内容、調査テーマについて参加、提案し、他の技術者・技術組織とともに成長する機会が得られます。ご興味のある方は法人会員向け申し込みフォームからお問い合わせください。

2020年10月1日夕方に行われた東京証券取引所の記者会見(フル動画)を皆さんはご覧になりましたか?記者会見には宮原幸一郎社長、日本取引所グループ(JPX)の横山隆介・最高情報責任者(CIO)、東証の川井洋毅執行役員、田村康彦IT開発部トレーディングシステム部長が出席し、システム障害による同日の終日売買停止について説明がされました(公式記者会見要旨資料)。この記者会見に関してエンジニアから称賛の声が多く上がっており、今回は特別に日本CTO協会理事兼GMOペパボ株式会社取締役CTOの栗林健太郎さん(@kentaro)にCTOから見て東証の記者会見のポイントを聞いてみました。


ポイント1:「東証」は日本のネットワークサービスの最高峰

ポイント2: インシデントレスポンスのクオリティが高い

ポイント3: 障害の技術的な話を誠実に説明している

ポイント4: CTOはこの記者会見から何を学べばいいのか?


ポイント1:「東証」は日本のネットワークサービスの最高峰

東証では1日平均約3兆円の取引があり、著名なソフトウェアエンジニアの奥一穂氏も指摘する通りおそらくは国内最大規模の商取引が行われているプラットフォームです。毎日この規模の取引がされているのは、実はとてもすごいことです。比較例として、アリババグループが行った世界最大の買い物デーである「独身の日」の売上は2019年に4兆円にのぼりました。この数字は過去最高となり、ニュースでも大きく報道されていました。しかし、これほど大きなイベントで取引されるのと同規模の額にのぼる取引が毎日のように東証では行われていると考えると、その凄さがわかります。このような規模の取引を取り扱う東証は、間違いなくネットワークを通じたサービス*における最高峰といえるでしょう。

経営コンサルタントで株式会社経営共創基盤代表取締役CEOの冨山和彦氏は著書『AI経営で会社は甦る』で、インターネットサービスの潮流は「バーチャルでカジュアル」なもの(SNSやソーシャルゲームのようにネットだけで完結するビジネス)から「リアルでシリアス」なもの(医療や金融などリアルとの関わりが深いもの)へ変わっていくと説明しています。昨今の日本では、そうしたリアルでシリアスな分野におけるDXに取り組もうとしているスタートアップが増えているように見受けられます。そんな中で東証は、その社会的インパクトにおいてリアルでシリアスなサービスの最高峰であるともいえます。そのため、リアルでシリアスな問題解決を目指している企業の方々には、今回の件が特に響いたのではないでしょうか。

それだけの規模の取引を支えるシステムですから、要求される水準もとてもレベルが高いです。今回障害が起きた箇所が属するarrowheadは現物商品の売買システムの呼称です。このarrowheadの注文応答時間は約0.2ミリ秒、情報配信時間は約0.5ミリ秒です。バーチャルでカジュアルなサービスであれば100~200ミリ秒の応答速度があれば十分なことも多いかもしれません。もっと速度が求められる世界、例えば広告事業を行うFreakout Holdingsではもっと速くて、「50ms or die.」という開発チームのスローガンを掲げています。処理内容やネットワーク構成が異なるため単純比較はできないものの、それでも100倍から1,000倍もの差があるという点で東証のシステムの凄さが感じられます。

*東証の場合はインターネット接続ではなく、企業間ネットワーク内で提供されているサービスを指す

ポイント2: インシデントレスポンスのクオリティが高い

多くの人々が言及していますが、記者会見で示された経営陣の技術的な理解の詳細さ・解像度の高さは圧巻でした。そして自らもインシデントハンドリングに関わる者として気になったポイントは、インシデントレスポンスのタイムラインです。日経クロステック編集部によるシステム障害と外部への情報発信の経緯がよくまとまっているので見てみましょう。

7:04に障害発生を検知してから8:54に売買停止を行っています。この短時間でこれだけの判断ができるのがまずすごい。証券会社から既に出されていた注文情報の取り扱いの兼ね合いで、そのような判断をしたようですね(参照「【1分解説】東証、取引停止の原因とインパクト(有料記事)」)。市場全体をまるまる一日止めるというのは難しい判断だったと思いますが、今回のような事態に対してもあらかじめ想定をしていたのでしょう。

そして当日の16:30には記者会見を行っています(飛沫感染防止のついたても設置してあり、新型コロナウィルス感染防止策もきちんととっていましたね)。その短時間でシステム障害の対応や原因究明と並行して、経営陣にまで密に報告が行なわれている。さらにすごいことには、経営陣が記者に対して真っ直ぐに向き合い、先に述べた通り詳細な技術的説明を、自分の言葉でわかりやすく丁寧に説明している。

あの規模のインシデントに向き合って、あれほどまでに的確な組織的対応が可能な会社が、日本において他にいくつあるでしょうか?技術的な把握をしている人材の多さや広報対応の早さなどから、インシデントレスポンスをしっかりできる体制が整っていることがわかります。これは単純に「大企業だから」というわけではなく、リアルでシリアスな領域においてあの規模感で闘っているからこそだと思い、非常に感心しました。

ポイント3: 障害の技術的な話を誠実に説明している

会見を見ていて、横山CIOが技術的な解説をわかりやすく、必ずしもそこまで言わなくてもよいのではないかと思えるほど詳細に話をしていることに、感銘を覚えました。記者からは何が原因だったのかしつこく聞かれていましたが、専門家ではない人々にも理解しやすいよう丁寧に説明をする様子は非常に好感が持てました。例えば故障が起こった共有ディスクのメモリがどういう情報を保存するのかという質問に対し、定められた時点で何かを処理するような指示情報だったり、接続する機器のアドレスやIDなど全体で共有すべき情報が入っているなどと非常に細かく説明していましたね。

なぜフェイルオーバー(稼働中のシステムに障害が発生した際に、代替システムがその機能を自動的に引き継ぎ、処理を続行する仕組み)が自動的にできなかったのかという点についても、記者から厳しく指摘されていました。記者会見では「原因は明らかではない」としており、わからないことはわからないとごまかさずに説明していたのも印象的でした。また、「機械は壊れるという前提でシステムを運用している」といいきったのは、エンジニア的には「よくいった!」と喝采を送りたいポイントでした。

こちらに関してもタイムラインを追ってみましょう。8:54に取引を中止してから、9:26に共有ディスクの2号機への強制切り替えと記載してあります(余談ですが、このあたりの説明で一度サーバーを「殺す」と言ったところを「切断する」とすぐに言い直したのも、社内での技術者とのコミュニケーションが垣間見えて面白かったです)。

フェイルオーバーというと、通常はアクティブ側への疎通が途絶えてしまった結果としてスタンバイ側に処理が切り替わるわけですね。しかし、今回のケースでは、物理的に切断したらフェイルオーバーが成功したという発言があったことからすると、おそらくアクティブ側は完全に落ちたというよりは半分生きている状態だったように見受けられます。そういう場合が非常に難しいのです。どのようなしきい値を持って処理をスタンバイ側に移譲するのがよいかは、自明ではないからです(だから、当面の間は人力による監視を行うという話をしていたわけですね)。サービス運用経験の深いエンジニアからすると、確かにこれは厳しい状況だという共感的な見方が多いと思います。

ポイント4: CTOはこの記者会見から何を学べばいいのか?

本ケースのポイントを解説してきましたが、あの記者会見から私たちは何を学べばいいのでしょうか?

インターネットサービスに関わっている者にとって、エンジニアリング面でのすごさがこれまではあまり知られていない存在だったように思われる東証のシステムを支える人々ですが、今回の記者会見で表舞台に出てきたことで、インターネット業界のエンジニアたちが大いに注目することとなりました。その背景としては、(1)サービスの規模の莫大さ、(2)システムに要求される性能水準の高さ、(3)経営者の技術への理解度の高さの3点を通じて、「東証」というリアルでシリアスな産業領域で闘う組織の底力を見せつけられたことがポイントだということは、これまで述べてきた通りです。

私は今回の件を通じて、自社で同じようなことが起きたら自分たちが同じ時間軸であのレベルの対応ができるのだろうかということについて考えざるを得ませんでした。私の勤務先も含め、東証とは規模が大きく異なるにしても、会社においてインシデントレスポンスに責任を持つCTO(やCIO、CISO等)の方々におかれては、一度自分たちの会社で今回の件のようなことがあった想定でインシデントレスポンスのシミュレーションを行ってみることで、現状でどれくらいの対応ができるのかどうか見えてくるのではないでしょうか。

システム障害対応の教科書 』という本が参考になります。この本では、インシデントレスポンスにおける人々の役割や望ましい組織デザイン、ベストプラクティス等が広範に述べられています。また、組織の「障害対応レベル」についての指針が示されていますので、それと自社の状況を比較していくとよいでしょう。インシデント発生時において、人の動きはどうなっているのか、障害対応フローはどのように定められているか、頼りになるドキュメントはちゃんと整備されているかどうか等、様々な視点を通じてインシデントレスポンスのクオリティをあげていくことができると思います。


インタビュイー

GMOペパボ株式会社取締役CTO 栗林 健太郎(@kentaro

インタビュアー / 執筆担当

日本CTO協会 松下 清隆

日本CTO協会 竹谷 真帆


日本CTO協会ではメールマガジンに登録いただいた方に定期的に最新レポートの情報や本協会の活動をお届けしています。

メールマガジンの登録

* indicates required
プライバシーポリシーに同意する。 *