全日空(ANA)の全国各地の空港カウンターにある端末が14日、一斉にダウンして多くの欠航や遅れが生じました。

この出来事は、当初、システム障害と報じられましたが、システムが適格に機能していたために起こった、手作業のミスによるものでした。なお、この原因が明らかになるまで4日を要しました。

18日の会見でANAは、原因がシステムの一部機能の「有効期限切れ」であると発表。欠航で宿泊を余儀なくされたお客さまへの費用負担は約2億円。社長ら役員10 人を、1ヶ月の報酬を10〜50%減額しています。

問題があったのはANAの「データセンター」(東京都)にある「端末認証管理サーバー」。全国51空港にある1556台の端末などを管理しています。このサーバーでデータを暗号化する機能の有効期限が、市販時の初期設定のまま「3年」(08年9月14日午前1時44分まで有効)と設定されていて、14日未明からシステムが稼動しませんでした。

サーバー自体の導入は05年。当時の搭乗システムではデータを暗号化する機能を使っていなかったため、有効期限の設定は市販時のまま放置。昨年9月、空港での搭乗手続きを簡素化する新システムが導入された際、個人情報を保護するため、データを暗号化するサーバー機能を使い始めました。

しかしながら、あと1年に迫っていた有効期限について、その時サーバー管理者からの明確な引き継ぎはなく、チェックしていませんでした。

ANAのIT推進室長は「きわめて初歩的なミス」と謝罪。今月中に運航システムを含む全システムについて有効期限などの問題がないか総点検するといいます。

リスクマネジメントの見識が問われるところです。

この事故の原因の本質は、システムではなく、体制にあります。

1) 原因を発見する体制がないこと。
2) 人為的ミスのリカバリー体制がないこと。
3) 独立部門によるモニタリングがないこと。

ANAのIT全般のメンテナンス部門には、優秀な人材の能力(機能)が備わっています。ですから、今後は、当該部署に独立したモニタリング体制(構造)を導入するなら、事故の復旧は早まり、お客さまにご迷惑をおかけしなくても済むような体制になるに違いありません。

事故やミスは起きるものであり、無くなりはしないのだということを大前提に、新しい体制がつくられる必要があります。

感謝