マネジメント系

インシデント対応 — システム障害が起きたらどうする

導入

深夜に社内システムが突然停止し、翌朝の業務が全くできない――こうした事態は「インシデント」と呼ばれます。インシデント発生時に何をすべきかを知っておくことは、ITサービス運用の現場で不可欠な知識です。

くわしく知ろう

インシデントとは、ITサービスの正常な運用が妨げられている状態や、サービス品質が低下している状態を指します。システム障害はもちろん、サービス応答が遅くなることや予期しないエラーが続く場合もインシデントに含まれます。

インシデントが発生した際は、まず「暫定対処」が優先されます。根本原因の究明よりもサービスを一刻も早く復旧させることが最初の目標で、システムの再起動や代替手段への切り替えなどが暫定対処にあたります。

暫定対処でサービスが復旧した後、改めて「根本原因調査」を行います。なぜインシデントが発生したのかを技術的に掘り下げ、原因を特定します。この調査結果をもとに「再発防止策」を立案・実施することで、同じ問題の繰り返しを防ぐことができます。

一連の対応が完了した後は「事後報告書(インシデントレポート)」を作成します。発生日時・影響範囲・対処内容・根本原因・再発防止策を記録しておくことで、組織のノウハウとして蓄積され、次の対応品質向上につながります。

具体例

たとえばクラウドサービスが突然つながらなくなった場合、まずは代替のネットワーク経路に切り替えてサービスを復旧させます(暫定対処)。その後、ネットワーク機器のログを解析して原因を特定し、設定変更や機器交換で再発を防ぎます(根本原因調査・再発防止策)。

まとめ・試験ポイント

  • インシデント=ITサービスの正常運用が妨げられた状態
  • 対応順序=暫定対処(復旧優先)→根本原因調査→再発防止策
  • 事後報告書=発生状況・対処内容・再発防止策を記録する文書
  • 暫定対処≠根本解決(原因を取り除いていないため再発の可能性あり)
  • 試験では「インシデント対応の手順として正しいものはどれか」が頻出

学習した内容を試験形式で確認しよう。ITパスポート入門試験100問に挑戦できます。

入門試験100問に挑戦する