サラリーマン雑学@えつみん

サラリーマンに役立つ「お金とIT」の雑学です

KDDI 通信障害について。私の会社も巻き込まれました

こんにちは、えつみんです。

先週は会社のメールサーバーのトラブルについてお話しましたが、その三週間前に、KDDI / auの大規模システム障害の影響も受けました。

KDDIの公式発表によると、影響時間は61時間におよび(7月2日 (土) 1:35~7月4日 (月) 15:00 )、音声通話で2200万人、データ通信で700万人に影響がありました。

 

 

7月2日(土)、その日は我が社は出勤日でした。朝会社に出てきたらau携帯が通じなくて、ネットで障害発生を知りました。また携帯から会社の内線に無料でかけられる、「ビジネスコールダイレクト」という、サービスも使えませんでした。

個人、企業問わず、”携帯依存社会”です。万一命に関わる事態が起きたときに連絡できないと、本当に怖いです。

 

先日KDDIから、一人あたり200円のお詫び返金をすると発表がありました。対象は3600万人、なんと総額72億円!になります。金額の大小についてはご意見があるでしょうが、私は、そのお金を再発防止策や、他の事業者(docomoや softbankなど)へのローミング整備に使ってもらった方がいいと思いました。

 

ツボ1️⃣ 障害対策の基本はフェイルセーフ

システムに障害が起きても止まらない、被害を最小限にとどめる対応を、「フェイルセーフ」といいます。よくあるのは、システムの二重化(冗長化)や、障害箇所を切り離したり、性能制限をする方法(縮退運転)です。基幹システムはたいていこのしくみがあります。

 

ツボ2️⃣  人為ミスは起きるもの。フールプルーフの設計を

もう一つ大切なのは、人為ミスを起きにくくすること。人がすることは必ず間違いがあります。間違った操作をしても、異常にならないようにすることを、「フールプルーフ」といいます。

今回の原因は、ルータのメンテナンス時に、経路設定を間違えた人為ミスです。その結果、交換機で通信の輻輳(ふくそう;混雑)が起き、複数の交換機が異常になったようです。輻輳をいち早く検知して、輻輳を解消するしくみが、不十分だったのでしょう。

マニュアルの整備は大切ですが、誤った操作をしても悪化させないしくみを作り、その方法を明記しておくことがもっと大切です。

 

まとめ

社会インフラなどの重要システムでは、本来障害は起きてはいけませんが、システム障害は必ず発生するものです。システム屋としては、その場面を想定して、フェイルセーフ、フールプルーフの思想でシステム設計をしましょう。

ユーザーとしては、自然災害と同じように、携帯やインターネットが使えなくなったときにどうすべきか、代替手段を考えておくことが大切です。昔からの固定電話や公衆電話は、なくしてはいけないのかもしれません。

いざ障害が起きると、なぜだ、なんとかしろ、とシステム担当が叩かれ、本当に大変だと思います。裏方で頑張っているSEの皆さん、日本の産業を支える大黒柱ですので、頑張ってください!

 

(参考)

KDDIの発表

https://www.kddi.com/important-news/20220729_01/?utm_source=p_gl0&utm_medium=cpc&utm_campaign=cd000bad&utm_term=d11901