ヘルプ レポート アノマリダッシュボード

アノマリダッシュボード

Site24x7の直観的な異常検出フレームワークでは、要求時間、CPU利用率(CPU Utilization)、メモリ利用率(%)など、リソース属性の緩慢な増大をとらえています。さらには、これらのスパイク(突出値)を詳細に、Webクライアントに表とグラフの形式で提示。リソースのパフォーマンスを精密に調整し、インフラの問題を見逃さず対応可能となっています。異常が発生すれば、チーム内で、PDFやメールで共有できます。

目次

概要

監視メトリックのアノマリ検知を使用して、異常なスパイクや差を検知できます。アノマリ検知の監視を有効化すると、一定間隔で監視が行われます。一定のしきい値を用いると、長期的に一貫した監視を行えません。そのため、AIによりアノマリを検知して、即座にアラートを発生させます。

AIベースの監視で、次のようなメリットがあります。

  • データトレンドの安定化:パターン変化(上昇または下降)のトレンドを把握します。
  • 期間中のデータの把握:ある期間での繰り返しデータ増減のパターンを把握します。
  • ロバスト性:わずかなパフォーマンススパイクの影響を受けないようにします。

異常エンジンでネガティブトレンドを予測

異常エンジンのサイクルは、さまざまなステージからなります。そこには、コレクターからの流入データの処理や、異常の確認・発生が含まれます。異常エンジンは、検出にあたり、定量・定性比較モデルを採用します。メトリックの収集は15分ごとに行い、最新データをベースラインと比較します。監視の異常ベースライン値は、リソースの履歴データを継続監視して、Site24x7自身が決定します。

異常エンジンは、2項目で予測を行います。

  1. 異常イベントの生成
  2. ドメインスコアリングでの異常の重要度を決定

異常イベントの生成

この項目の目的は、負荷の重い処理を行い「イベント」を起動することです。1データのアノマリ検知の場合、1週間および2週間前の日の1時間ごとの95パーセンタイルデータが比較対象となります。例えば、金曜日にアノマリ検知が行われた場合、1週間前と2週間前の金曜日の値が、比較対象のデータとなります。比較対象のスパイクを取り除くために、ここでは95パーセンタイルデータが比較対象に利用されています。

複数データのアノマリ検知の場合、15分毎にSite24x7がデータをプッシュします。過去2週間における1時間ごとの95パーセンタイルデータが比較対象となります。アノマリ検知が行われた場合、検知対象のパフォーマンス属性が特定されます。

対象の比較を基に、レベルL1、L2,、L3での、イベントが生成されます。ここでのL3が、重大度の最も高いアノマリとなります。

ドメインスコアリングでの異常重要度を決定

このステージでは、依存監視に見られる異常を考慮して、定性モデルの性格が、異常の生成に加わります。イベントの合算により、「異常の重要度」のスコア基準が決まります。アノマリ発生で、スコアリングタスクが行われる際、依存監視の過去30分でアノマリが発生しているか、エンジンが確認します。スコアは個々の監視のデータ属性に基づいて決められ、ベースラインからの偏差のパーセンテージが該当します。

最終スコア決定には、次の手法を用います。

  • 同じ監視で検知された他の属性
  • アノマリが検知された依存監視
  • 親または子の監視がアノマリ
  • 同じ監視グループに属する監視がアノマリ
  • 同じタグ(ユーザー定義タグ)が付与されている他の監視がアノマリ
  • 同じサーバー名または同じFQDNの監視がアノマリ

最後に、検出した異常のドメインスコア、依存性、重大度などの要素にもとづき、異常の重要度は3つに分類されます。

  • アノマリ確認済み:断続的に発生する異常です。アノマリが長引くと、障害に大きな影響が及びます。何度も確認される異常には、最大限の注意を払う必要があります。
  • アノマリの可能性大可能性大:このトレンドは長期的には障害につながる可能性もあるため、継続して観察する必要があります。
  • 情報情報:将来に問題化しても被害を軽減できるよう、観察が必要です。

AIベースしきい値プロファイル

AIベースのしきい値プロファイルは、監視ステータスにおけるアノマリ検知で使用されます。一定のしきい値とは異なり、動的なしきい値を設定します。一定のしきい値プロファイルでは、ユーザー自身でしきい値を設定して、監視ステータスを判別する必要があります。問題が発生し、しきい値違反があった場合に通知を行います。

AIベースのしきい値の場合、しきい値の設定を行う必要がありません。監視のふるまいに基づいて、動的なしきい値が設定されます。これにより、ポーリング設定を行う必要がなくなります。ポーリング設定は異常なスパイク検知するのに重要ですが、アノマリ検知の場合は、スパイク発生時に即座にその報告が行われます。

しくみ

しきい値プロファイルの設定画面より、一定しきい値またはAIベースしきい値の選択が行えます。AIベースしきい値を選択した場合、アノマリ属性を有効にする重大度選択オプションが表示されます。アノマリが有効となっていない属性では、プロファイルタイプの選択は行えず、一定のしきい値設定オプションのみ表示されます。一定およびAIベースしきい値の両方を選択することはできません。

AIベースしきい値プロファイルについて:

  • 各属性で、LikelyとConfirmedの重大度を設定できます。Likelyはトラブルステータスに該当します。また、Confirmedの場合はクリティカルに該当し、これら該当ステータスの変更は行えません。
  • 各属性に対して、IT自動化アクションを設定することもできます。

異常ダッシュボードの読み方

異常ダッシュボードにより、ITインフラのネガティブなトレンドは、容易に事前分析が可能となります。異常のフィルターは、監視か監視グループの選定で、可能です。

次の手順で異常ダッシュボードを表示します。

  1. Site24x7アカウントにログインします。
  2. ホーム > アノマリダッシュボードへ移動してください。
  3. 期間選択ツールで、「直近24時間から直近30日まで」から期間を選びます。異常は検索バー監視/監視グループ名で、検索できます。
  4. さらに、「確認済み、可能性大、情報」など、さまざまな重要度レベルに応じて、異常の分類も可能です。
  5. ダッシュボードが作成されると、右上の共有ボタンをクリックして、メールでのレポートを共有と、PDFを作成できます。

ダッシュボードの内訳ビューでは、監視と監視グループすべてが、ダッシュボード左側に表示されます。ダッシュボードの右端では、異常サマリ グラフを、検出した異常ごとに、期間と理由に応じて表示できます(異常は 異常履歴に表示されています)。異常は、監視や監視グループ名で検索したり、重要度レベルでフィルターしたりして、並べ替え可能です。 異常サマリグラフでは、選択期間内の、監視/監視グループ名の異常の件数を表示します。監視の異常件数は、積み重ね棒グラフで表示します。それぞれの異常は、異常履歴セクションに、詳細メッセージとあわせて示します。表示される異常には、それぞれ異常メッセージごとに重要度フラグが立ちます。この異常の説明により、異常トレンドの詳細情報が収集できます。パフォーマンスの問題について、根本原因をさらに追及するには、異常の説明に付随するハイパーリンクをクリックしてください。

異常サマリグラフは、選択期間のデータを表示します。ただし、異常の件数が100を超えると、その分のデータのみがグラフに表示され、残り日数のデータは無視されます。
それぞれの監視のグラフに表示される凡例は、フィルターとしても使えます。監視を指定して、棒グラフでの削除や再挿入ができます。

根本原因分析

メッセージを指定して根本原因を知るをクリックすると、モーダル ダイアログで指示を求められ、過去4週間追跡したメトリックで線グラフを作成することが可能です。グラフにマウスカーソルをあてると、指定日時の実際の値が表示されます。メトリックのデフォルト値は、監視ごとに異なることがあります。すべての監視に、異常検出用に有効化された デフォルト属性があります。他方、これに加えて、線グラフ上のドロップダウンを利用し、監視を選択して、同じ期間について、他のパフォーマンス属性を見ることもできます。

異常検出:有効な監視と対応するパフォーマンス属性

次の監視で、デフォルトでアノマリ検出が有効となっています。

監視タイプ パフォーマンス属性
Webサイト 応答時間
DNSサーバー 応答時間
FTP転送 応答時間
Webページ(ブラウザー) 応答時間
ping 応答時間
FTPサーバー 応答時間
ポート(カスタム プロトコル)  応答時間
POPサーバー  応答時間
SMTPサーバー  応答時間
Webトランザクション(ブラウザー)  応答時間
Webトランザクション  応答時間
メール配信監視 応答時間
REST API監視 応答時間
SOAP Webサービス監視 応答時間
Microsoft Hyper-Vサーバー

正常性重大VM
論理プロセッサー
仮想プロセッサー
VMバス受信割り込み
VMバススロットルイベント
1秒ごとのVMバス受信割り込み
1秒ごとのVMバス送信割り込み
論理プロセッサーゲストランタイム
論理プロセッサーHypervisorランタイム
論理プロセッサーランタイム合計
ルート仮想プロセッサー、ページフォールトインターセプト
仮想プロセッサーのエミュレートされた命令
仮想プロセッサーMSRアクセス
1秒ごとの仮想スイッチバイト
1秒ごとの仮想スイッチ受信パケット
1秒ごとの仮想スイッチ送信バイト
メモリ需要

Microsoftフェールオーバークラスター

未処理のメッセージ
リソースホストサブシステムプロセス再起動
リソースホストサブシステムプロセス
使用スペース
受信バイト
送信バイト
受信メッセージ
送信メッセージ
オフラインリソース
通常メッセージキュー長
重大メッセージキュー長
再接続数
使用MB

リソース失敗
リソース失敗 - アクセス障害
リソース失敗 - デッドロック

Microsoft Office 365

作成されたグループ
削除されたグループ
未アクティブメールボックス
超過警告サイズ
25%未満使用率
インバウンド
アウトバウンド
アクティブLyncユーザー
Web会議
電話会議
IM会議
AV会議
アプリケーション共有会議
オーディオセッション
ファイル転送セッション
IMセッション
ビデオセッション
アプリケーション共有セッション
Share Pointユーザー
割り当てライセンス
必要なライセンス
アクティブデプロイメント
未アクティブデプロイメント
使用サイズ

プラグイン

すべての属性

APMインサイト - アプリケーション

応答時間
エラー数
Fatal数

個々のコンポーネントの応答時間、リクエスト数と失敗数

個々の例外数

APMインサイトインスタンス

応答時間
エラー数
Fatal数

個々のコンポーネントの応答時間、リクエスト数と失敗数

個々の例外数

RUM

アプリケーションスループット
ロケーションスループット
ブラウザスループット
ブラウザフロントエンド時間
ブラウザエラーパーセンテージ
ロケーションネットワーク時間
アプリケーションバックエンド時間

クラシックロードバランサー

レイテンシー
リクエスト数

アプリケーションロードバランサー

レイテンシー
リクエスト数

ネットワークロードバランサー

処理済みバイト
消費LCU合計

Simple Notification Service

公開されたメッセージ数
公開サイズ
SMS成功レート

Simple Storage Service (S3)

バケットサイズ
オブジェクト数
すべてのリクエスト

AWS Lambda

呼び出し(合計)
エラー(合計)
期間(合計)
スロットル(合計)

Elastic MapReduce

失敗したジョブ
失敗したアプリ
読み取りS3バイト
書き込みS3バイト
読み取りHDFSバイト
書き込みHDFSバイト
失敗したステップ

Web Application Firewall (WAF)

許可されたリクエスト
ブロックされたリクエスト
カウンターリクエスト
パスしたリクエスト

Neptuneインスタンス

CPU使用率
使用ボリュームバイト
空きメモリ

Neptuneクラスター

CPU使用率
使用ボリュームバイト
空きメモリ

Lightsailインスタンス

CPU使用率
入力ネットワーク
出力ネットワーク

Amazon GuardDuty

1日ごとのFinding

監視タイプ パフォーマンス属性
EC2インスタンス

CPU使用量
入力ネットワーク(受信バイト数)
出力ネットワーク(送信バイト数)

RDSインスタンス

CPU使用量
空きストレージ
データベース接続

Microsoft IISサーバー

キュー済みリクエスト
アプリケーション再起動
受信バイト
送信バイト
ネットワーク統計
キャッシュエントリ―合計
キャッシュAPIヒット率
キャッシュAPIターンオーバーレート
キャッシュ%使用マシンメモリ制限
SQLサーバー接続セッション合計
プロセッサー時間(%)
1秒ごとのIOデータ操作
スレッド数
プライベート/仮想メモリ(MB)
物理スレッド数

Microsoft Exchangeサーバー

DBキャッシュサイズ
キャッシュにより行われたページ要求数
1 秒あたりのDBキャッシュページフォールトストール
I/O DB読み取り平均レイテンシー
I/O DB書き込み平均レイテンシー
1秒ごとのIOログ書き込み
RPC応答時間
RPC操作
RPCスローパケット数
スローQPスレッド
アクティブユーザー数
RPCリクエスト
アクティブクライアント数
1秒ごとのハブRPC送信リクエスト

Microsoft SQLサーバー

接続
ログイン
バッチリクエスト
SQLコンパイル
レプリケーションマージの競合
対象サーバーメモリ
サーバーメモリ合計
SQLキャッシュメモリ
オプティマイザーメモリ
付与されたワークスペースメモリ
保留中のメモリ付与
チェックポイントページ
遅い書き込み
ページ読み取り
ページ書き込み
ページ内訳
フルスキャン
プローブスキャン
レンジスキャン
エラー数
プランキャッシュヒット率
キャッシュページ
キャッシュオブジェクト
キューされたジョブ
失敗したジョブ
ロック要求
ロックタイムアウト
デッドロック

サーバー監視

CPU使用量
メモリ使用量
使用済み物理メモリ
使用済みスワップメモリ
メモリーページイン
メモリページフォールト
15分平均
ディスク読み取り
ディスク書き込み
コンテキストスイッチ
プロセッサー割り込み

Microsoft Sharepointサーバー Server

アクティブリクエスト
アクティブセッション
リクエスト処理平均時間
1秒ごとのGet Dataリクエスト
1秒ごとの挿入リクエスト
1秒ごとの更新リクエスト
1秒ごとの削除リクエスト
1秒ごとの失敗した挿入リクエスト
平均データ取得時間
平均挿入時間
平均更新時間
フォームセッション平均時間
トランザクション完了レート
リクエスト処理時間
1秒ごとのVISIOリクエスト
1秒ごとのエラー
キュー内のリクエスト
拒否されたリクエスト
1秒ごとのASPリクエスト
現在のセッション
1秒ごとの開始したトランザクション
保留中のトランザクション
ContentDBのサイト収集警告数
失敗したクエリ
成功したクエリ