アラーム エンジンは、監視リソースに問題があるかの判断をします。アラーム エンジンは、アラート条件を、監視で得たデータに適用し、その監視が、ダウン・トラブル・アップの状態にあるか、マーク付けをします。この稼働チェックの設定は、しきい値・可用性と 通知プロファイルでおこないます。
Webサイト、Webアプリケーション、DNS、FTPなどの監視は、インターネット サービス監視に分類されます。これらについて、アラーム エンジンがパフォーマンスと可用性を、複数の監視ロケーションから確認しています。また、Site24x7では、「誤報プロテクター」によって、誤報アラートの削減を行います。
障害検出時は、Site24x7は実ブラウザーからサイト確認のスクリーンショットを取得します。Site24x7は、同時間帯に、他の監視対象リソースが稼働していないか探し、ネットワーク障害をできる限り除外します。他の監視が稼働していれば、問題の監視のみがダウンであると判断し、アラートをあげます。他のリソースから1つもアップ情報が得られない場合、Site24x7は既知のWebサイトの接続状況をしらべ、ネットワーク ステータスを精査します。さらに、ある監視ロケーションに、ブラウザーからエラーコードが返ってきた場合は、アラーム エンジンは他ロケーション(セカンダリ)から、サイトの生死を確認します。サイト ダウンと判定すると、1分ごとの集中監視に切り替わり、障害を短期間に収めようとします。
稼働監視の他にも、Site24x7はリソースのパフォーマンスの吟味、応答の確認などを行います。問題が検出されればトラブル、ダウンなどの重要度ステータスを知らせます。アラーム エンジンは、特定キーワードがページにあるか否かによって監視をし、データの正当性をチェックします。たとえば、「Exception」、「Error」、「Page Not Found」などのキーワードがページにあれば、アラートが上がるようにできます。Site24x7は、サイトに動的なキーワードがあるかどうかも判別できます。これには、JSP・ASPスクリプトが作成したものや、バックエンドサーバーの出力も含まれ、ページに不正な変更があるとアラートが発生します。
Site24x7は、URL応答時間、CPU、メモリ使用状況などのメトリックについて、スマートなアラート機能を実装しています。
ステータス「トラブル」は次の条件で発生します。
ポーリング回数はしきい値違反を確認する際に、デフォルトの戦略として利用します。しきい値違反の判別には、しきい値条件(>、<、>=、<=)を複数利用できます。下記の作戦に適用される条件が合致した時、監視のステータスは「トラブル」に変わります。
詳細は、アラーム エンジンのサーバー稼働時間の確認方法を参照ください。
サーバー ダウン時に作成されるRCAレポートのメール サンプル