監視グループおよびサブグループの正常性チェック

正常性チェック機能で、監視グループおよびサブグループの可用性と正常性を評価し、監視グループの操作やワークロードに影響する潜在的な問題を特定します。
正常性チェックによるアラートを受信することも可能です。


目次


ユースケース

正常性チェックで監視グループとサブグループの正常性と可用性全体を監視します。
複数ビジネスアプリの監視リソースが1つの監視グループにまとめられている場合、各監視リソースを個別に監視するのは煩雑です。
正常性チェックを使用して、各監視のステータスと可用性を表示し、監視リソースの管理を容易にします。

正常性チェックの利点

監視グループとサブグループの正常性チェックを行うと、次の利点があります。

  • 監視グループの各監視のステータスと障害を表示、監視します。
  • ステータス変更の監視と問題の分析を行います。
  • しきい値を設定して、単一または複数監視のステータス変更時にアラートを発生します。
  • 監視のトラブル、ダウン、クリティカルステータスを容易に特定し、根本原因分析で問題を特定します。
  • リソースの可用性を追跡し、システム全体の健全性を分析します。
  • 正常性チェックしきい値プロファイルで、監視グループとサブグループのステータスをカスタマイズします。

サポートしている正常性チェックメトリック

メトリック名 説明 単位
アップ アップしている監視数です。
監視の合計 監視数の合計です。
追加されている監視数 追加されている監視数です。
削除された監視数 削除された監視数です。
可用性 監視の可用性パーセンテージです。 パーセンテージ
ダウン監視のパーセンテージ ダウンステータスの監視のパーセンテージです。 パーセンテージ
クリティカル監視のパーセンテージ クリティカルステータスの監視のパーセンテージです。 パーセンテージ
トラブル監視のパーセンテージ トラブルステータスの監視のパーセンテージです。 パーセンテージ
メンテナンス中の監視のパーセンテージ メンテナンスステータスの監視のパーセンテージです。 パーセンテージ
停止している監視のパーセンテージ 停止ステータスの監視のパーセンテージです。 パーセンテージ
全体の可用性 アップステータスにある監視のパーセンテージです。 パーセンテージ
ダウンタイムの合計 監視のダウン時間の合計です。
最小ダウンタイム 監視の最小ダウンタイムです。
最大ダウンタイム 監視の最大ダウンタイムです。
平均ダウンタイム 監視の平均ダウンタイムです。
ダウンイベント ダウンイベント数です。 イベント
トラブルイベント トラブルイベント数です。 イベント
クリティカルイベント クリティカルイベント数です。 イベント
メンテナンスイベント メンテナンスイベント数です。 イベント
サスペンドイベント 停止状態のイベント数です。 イベント

サポートしているサブグループメトリック

メトリック名 説明 単位
ダウンサブグループ数 ダウンステータスのサブグループ数です。
クリティカルサブグループ数 クリティカルステータスのサブグループ数です。
トラブルサブグループ数 トラブルステータスのサブグループ数です。
アップサブグループ数 アップステータスのサブグループ数です。

しきい値設定

監視グループのしきい値設定方法は次のとおりです。

  1. Site24x7にログインし、[ホーム]→[監視グループ]をクリックします。
  2. 監視グループ名をクリックします。
  3. 表示名横のハンバーガーアイコンから[編集]をクリックします。
  4. 正常性チェック欄の正常性チェックプロファイル項目で[+]をクリックし、しきい値プロファイルを追加します。
    • しきい値プロファイルを編集するには、上記正常性チェックプロファイル項目で、[鉛筆]アイコンをクリックしてください。
    • サブグループのアラートをミュート:リソースチェックプロファイルの追加または編集画面の「サブグループのアラートをミュート」 項目を[はい]に指定することで、その監視グループの直接のサブグループのアラートをミュートできます。
      例として、Zylkerという監視グループに「Zylker_sub1、Zylker_sub2、Zylker_sub3」という名前のサブグループが存在し、Zylker_sub2には、さらに「Zylker_sub2A、Zylker_sub2B」という名前のサブグループが存在するとします。

      Zylkerでサブグループアラートのミュート設定を有効にすると、直属のサブグループ「Zylker_sub1、Zylker_sub2、Zylker_sub3」のアラートはミュートされますが、Zylker_sub2配下の「Zylker_sub2A、Zylker_sub2B」のアラートはミュートされません。

      またZylker_sub2でミュート設定を有効にすると、「Zylker_sub2A、Zylker_sub2B」のアラートはミュートされますが、その他「Zylker_sub1、Zylker_sub3」のアラートはミュートされません。
  5. 監視タイプドロップダウンから[正常性チェック]を選択します。
  6. プロファイル名を指定するため、表示名を入力します。
  7. しきい値の設定欄で、メトリックのしきい値を設定します。
  8. [保存]をクリックします。

監視グループの正常性チェックアラートのミュート

このオプションを有効にすると、監視グループの正常性チェックによって生成されるすべてのアラートが抑制されます。有効期間中は、Site24x7 内部のアラートやサードパーティ連携へ送信されるものも含め、あらゆるステータス変更に対する通知がトリガーされなくなります。

これは、一時的な状態変化が予想され、対応を必要としない計画メンテナンス、デプロイ、または設定テストの際に有用です。また、開発、テストなどの非本番環境や、アラートのノイズを最小限に抑えたい既知の問題に対して適用するのにも適しています。

サードパーティ連携アラートのミュート

このオプションを有効にすると、チケット管理ツールやインシデント管理ツールなどの外部連携先に送信されるアラートのみが抑制され、Site24x7内にはアラートが保持されます。有効化されている場合、ステータスの変更はプラットフォーム上で引き続き確認できますが、外部システムには転送されません。

この機能は、外部チケットを作成せずにチーム内で問題を監視したい場合、頻繁なステータス変更による過剰なチケット生成を避けたい場合、または本格的なアラート配信を開始する前に連携の設定を検証したい場合などに役立ちます。なお、監視グループの正常性チェックアラートがミュートされている場合、サードパーティ連携アラートは自動的に抑制されます。

監視グループステータスを正常性チェックステータスに同期

監視グループステータスを正常性チェックステータスに同期する機能は、正常性チェックプロファイルの追加または編集画面で利用でき、デフォルトで[はい]に設定されています。
[はい]に選択されている場合、監視グループステータスが正常性チェックステータスとして表示されます。

[いいえ]に設定されている場合、監視グループステータスは、監視グループおよびサブグループで設定されている監視数に基づいて反映されます。一方で、正常性チェックステータスは正常性チェック設定に基づいて反映されます。

監視数ベースしきい値の通知

監視数ベースしきい値は、監視グループステータスを正常性チェックステータスに同期の設定に基づいており、この項目が[いいえ]に設定されている場合に適用されます。

  • 既存のプロファイルの場合、「監視グループステータスを正常性チェックステータスに同期」と「監視数ベースしきい値」はデフォルトで[いいえ]に設定されています。この機能を使用したい場合、[はい]に変更するか、新規プロファイルを作成してください。
  • 新規プロファイル場合、「監視グループステータスを正常性チェックステータスに同期」と「監視数ベースしきい値」はデフォルトで[はい]に設定されています。

「監視グループステータスを正常性チェックステータスに同期」と「監視数ベースしきい値」の各設定内容による挙動については次の表のとおりです。

シナリオ 監視グループステータスを正常性チェックステータスに同期の設定内容 監視数ベースしきい値の設定内容 挙動
 1

[はい]

[はい]または[いいえ]

監視グループステータスが、正常性チェックステータスに同期されます。

 2

[いいえ]

[はい]

監視グループステータスは正常性チェックステータスに同期されません。

正常性チェックステータスは監視グループのステータスを決定する監視数のしきい値によって判定されます。

 3

[いいえ]

[いいえ]

監視グループステータスは監視グループのステータスを決定する監視数のしきい値によって判定されます。

正常性チェックステータスは正常性チェックしきい値設定に基づいて判定されます。


ライセンス

正常性チェックは、購入版および評価版のすべてのアカウントでサポートされており、無料でご利用いただけます。


チェック間隔

デフォルトのポーリング頻度が変更されるのは、問題の発生している監視対象がダウン、トラブル、クリティカルのいずれかのステータスを1時間継続した場合のみです。

監視グループ

監視グループ内にダウン、トラブル、またはクリティカル状態の監視対象が存在する場合、それらの問題が発生しているすべての監視対象の中で最も短いポーリング間隔が、正常性チェックのデフォルトのポーリング頻度として設定されます。
例えば、監視グループ内の3監視のチェック間隔が3分、4分、5分に設定されている場合、3分のチェック間隔が適用されます。

サブグループ

サブグループの場合、同じサブグループ内で最短の間隔が適用されます。
例えば、2監視が追加されているサブグループで、各監視のチェック間隔が3分、5分に設定されている場合、3分のチェック間隔が適用されます。


正常性チェックにおけるメンテナンス期間の仕組み

メンテナンス期間を設定することで、管理者は不要なアラートを発生させることなく、監視対象や監視グループに対して必要なメンテナンス作業を行うことができます。メンテナンス期間は、事前にスケジュールすることも手動で開始することも可能で、どちらの場合でも監視対象はメンテナンスモードとしてマークされます。

監視グループ内の特定の監視対象をメンテナンス状態に設定した場合、監視対象レベルのステータスには即座に反映されます。しかし、正常性チェックレベルにおいては、次回のポーリングサイクルが実行されるまでメンテナンス状態は反映されません。

例えば、4つの監視対象があるとします。ここで、監視1が午前9:30~午後1:00までダウンしたと仮定します。
午前10:00に、監視1をメンテナンス中に設定した場合、挙動は以下のようになります。

  • 監視1レベル
    • 午前9:30~午後1:00の障害期間全体がメンテナンスとしてマークされます。
  • 正常性チェックレベル
    • 障害期間は午前9:30~午前10:00と記録されます。
    • 午前10:00~午後1:00の期間がメンテナンス期間として扱われます。

このように、正常性チェックにおいて監視グループ内の監視対象をメンテナンス中に設定した場合、以下のようになります。

  • 監視対象のステータスは次回のポーリング時に更新されます。
  • メンテナンス期間は障害詳細とともに表示されますが、すでに記録された障害期間(上記の例では午前9:30~午前10:00)そのものが変更されることはありません。

監視グループの正常性チェックデータの表示

監視グループの正常性チェックデータの表示方法は次のとおりです。

  1. [ホーム]→[監視グループ]に移動します。
  2. 監視グループ名を選択し、[正常性チェック]タブをクリックします。

画面上部に、監視グループステータス、可用性パーセンテージ、監視グループ内の監視数、アップ/ダウン/トラブル/クリティカルステータス数といった監視グループの概要が表示されます。


サブグループの正常性チェックデータの表示

サブグループの正常性チェックデータの表示方法は次のとおりです。

  1. [ホーム]→[監視グループ]に移動します。
  2. 画面右上の[サブグループの表示]をクリックします。
  3. サブグループ名を選択し、[正常性チェック]タブをクリックします。

画面上部に、サブグループステータス、可用性パーセンテージ、サブグループ内の監視数、アップ/ダウン/トラブル/クリティカルステータス数といったサブグループの概要が表示されます。


正常性チェックデータ

正常性チェックは監視グループまたはサブグループ作成時に自動で有効化されます。
正常性チェックのデータは、以下のタブから確認できます。

可用性

[可用性]タブでは、正常性チェック監視の可用性、イベントごとのステータス、関連付いている監視の可用性ステータス(パーセンテージまたは数)を表示します。対象のステータスは、アップ、ダウン、トラブル、クリティカル、メンテナンス、一時停止です。

ダウン時間

[ダウン時間]タブでは、ダウン時間、ダウン詳細、トラブル時間の合計、トラブル詳細といった情報を表示します。

監視対象リソース

[監視対象リソース]タブでは、正常性チェック監視に関連付いているすべての監視を表示し、それぞれのステータス、障害開始時間、障害の理由を表示します。

[しきい値の設定]をクリックして、監視のしきい値を設定できます。個々の監視ステータスに変更があった場合、しきい値設定に基づいて監視グループステータスが更新されます。

サブグループ

[サブグループ]タブでは、親監視グループ配下のすべての監視対象と、サブグループに関連付けられている監視対象が表示されます。このタブは、監視グループ内にサブグループが存在する場合にのみ表示されます。サブグループのステータスを確認できるほか、アップ、ダウン、クリティカル、トラブルの各ステータスにある監視対象の数を把握できます。

イベント

[イベント]タブでは、障害の開始時刻から終了時刻、期間、障害理由を表示します。

ログレポート

[ログレポート]タブでは、監視ロケーション、収集時刻、ステータス、ダウン、クリティカル、トラブル、アップの監視数を表示します。

RCA

[RCA]タブでは、ダウン時間のサマリー情報、ステータスイベント、監視対象リソース、障害履歴といった情報を表示します。