PagerDutyとは
PagerDutyは、システム管理者およびサポートチーム向けのアラーム集約およびディスパッチサービス
監視ツールからアラートを収集し、すべての監視アラームを全体的に表示し、問題がある場合は担当者に警告します。
監視しているサーバに大きな不具合が生じると、色々な監視ツールからのアラートが別々に発せられて、運用エンジニアにメールが届くことになります。大きなシステムでは運用エンジニアは複数いるでしょうから、誰がどう対応すべきか、すでに対応済みなのかなど、現場は大混乱になりかねません。
そこで、色々な監視ツールから送られるアラートを1カ所で集約して管理できるようにするのがインシデント管理ソリューションです。ちなみにインシデントとはシステムダウンやアプリケーションのバグ、パフォーマンスの低下などの兆候が一定基準を超えた際に監視ツールから発せられるアラートをもとに、対応すべき事態としてインシデント管理サービスが認定、生成する状況のことです。
インシデント管理ソリューションとしてはWaker、VictorOps、PagerDutyなどいくつかある
PagerDuty
PagerDutyのCEO、ジェニファー・テハダ(Jennifer Tejada)氏。
業態 : ITインシデント・マネジメントプラットフォーム
創業 : 2009年
評価額 : 13億ドル
調達額 : 1億7370万ドル
インシデント管理サービスPagerDuty機能
1 複数のアラートを集約して担当者に通知する。
もし担当者が決められた時間以内に通知確認をしなければ、あらかじめ決められた順番で他の担当者に通知する(エスカレーション)。
通知の手段は音声電話、SMS、Slackなどのチャット、メールなど、インシデントの重要度に従って設定できる。
インシデントの重要度はあらかじめ閾値を決めておく。
2 簡単に連携できる監視ツールは200種類、REST APIでのアラート可
インシデントの集約化対応
3 インシデントの状況 リアルタイムダッシュボードで確認
モバイル端末での確認、サーバのリブートなども
4 チャットサービスとの連携やWeb会議など対応
5 インシデント対応をあらかじめワークフロー化しておける。
素早く間違いのない障害対応が可能になる。
6 オンコールエンジニアのスケジューリングを簡単に行える。
時間、曜日、週などでのローテーションをビジュアルに組むことができ、突発的な変更にも素早く対処できる。
7 システムのヘルスレポート、チーム、スタッフの負荷などを表示
8 インシデント解決後のレポート作成機能