インシデント対応入門 — 「バグ修正」で終わらせない組織レジリエンスの高め方
インシデント対応入門 — 「バグ修正」で終わらせない組織レジリエンスの高め方 @MacopeninSUTABA 氏のポストが、SRE Lounge Hiroshima #1 で発表されたスライド資料『インシデント対応入門』を紹介しています。 『インシデント対応入門』が、全エンジニア・PMに刺さる。単なる「バグ修正」で終わらせない、組織としてのレジリエンスの高め方を徹底解説している。 著者の gr1m0h 氏は、インシデントマネジメント SaaS「Waroom」を開発する Topotal 社のソフトウェアエンジニア兼 SRE です。このスライドは閲覧数 5,600 を超え、エンジニアやPMの間で広く共有されています。本記事では、スライドの内容を軸に、インシデント対応の5つのフェーズとその実践方法を掘り下げます。 なぜ「バグ修正」では不十分なのか 障害が起きたとき、コードを直して「修正完了」で終わりにしていないでしょうか。しかし、同じ種類のインシデントが繰り返し発生する組織は少なくありません。その原因は、インシデント対応を「技術的な修正」だけで完結させてしまうことにあります。 gr1m0h 氏のスライドが提示するのは、インシデント対応を5つのフェーズで捉えるフレームワークです。修正は全体のプロセスの一部に過ぎず、準備・検知・振り返り・恒久対応まで含めた組織的な取り組みが必要です。 5つのフェーズで捉えるインシデント対応 フェーズ1: 準備 インシデントが発生する前の体制整備です。「準備がないと『どうする?』から始まる」という指摘は、多くの現場で実感があるのではないでしょうか。 具体的に準備すべき項目は以下の通りです。 緊急度基準の策定: インシデントの重大度(SEV)を定義する 連絡ルールの文書化: 誰が、誰に、どの手段で連絡するかを明文化する 手順書の作成: 初動対応の手順を事前に整備する 監視設定: アラートの閾値やエスカレーション条件を設定する SEV(重大度)レベルの定義例 スライドでは4段階の重大度レベルが紹介されています。 レベル 状態 対応の緊急度 SEV1 サービス全体が停止 即座に全員招集 SEV2 主要機能の障害 速やかに対応チーム編成 SEV3 一部機能の劣化 営業時間内に対応 SEV4 軽微な問題 通常優先度で対応 重要なのは、この基準が事前に合意されていることです。インシデント発生時に「これはSEV1なのか2なのか」を議論している時間はありません。 フェーズ2: 検知・初動 「『様子見』している間にも被害は広がる」というスライドの指摘は、初動の遅れがインシデントの影響を拡大させる現実を端的に表しています。 検知・初動で行うべきことは以下の4つです。 状況確認: 何が起きているかを把握する 影響範囲の特定: どのユーザー・機能に影響しているかを確認する 緊急度の判定: SEV レベルを判断する 関係者への連絡: 定められたルールに従ってエスカレーションする フェーズ3: 対応・復旧 対応フェーズで最も重要な原則は、指揮と作業の分離です。 ...