ヘルプレポートアノマリダッシュボード

アノマリダッシュボード

Site24x7の直観的な異常検出フレームワークでは、要求時間、CPU利用率（CPU Utilization）、メモリ利用率（％）など、リソース属性の緩慢な増大をとらえています。さらには、これらのスパイク（突出値）を詳細に、Webクライアントに表とグラフの形式で提示。リソースのパフォーマンスを精密に調整し、インフラの問題を見逃さず対応可能となっています。異常が発生すれば、チーム内で、PDFやメールで共有できます。

概要

監視メトリックのアノマリ検知を使用して、異常なスパイクや差を検知できます。アノマリ検知の監視を有効化すると、一定間隔で監視が行われます。一定のしきい値を用いると、長期的に一貫した監視を行えません。そのため、AIによりアノマリを検知して、即座にアラートを発生させます。

AIベースの監視で、次のようなメリットがあります。

データトレンドの安定化：パターン変化（上昇または下降）のトレンドを把握します。
期間中のデータの把握：ある期間での繰り返しデータ増減のパターンを把握します。
ロバスト性：わずかなパフォーマンススパイクの影響を受けないようにします。

異常エンジンでネガティブトレンドを予測

異常エンジンのサイクルは、さまざまなステージからなります。そこには、コレクターからの流入データの処理や、異常の確認・発生が含まれます。異常エンジンは、検出にあたり、定量・定性比較モデルを採用します。メトリックの収集は15分ごとに行い、最新データをベースラインと比較します。監視の異常ベースライン値は、リソースの履歴データを継続監視して、Site24x7自身が決定します。

異常エンジンは、2項目で予測を行います。

異常イベントの生成
ドメインスコアリングでの異常の重要度を決定

異常イベントの生成

この項目の目的は、負荷の重い処理を行い「イベント」を起動することです。1データのアノマリ検知の場合、1週間および2週間前の日の1時間ごとの95パーセンタイルデータが比較対象となります。例えば、金曜日にアノマリ検知が行われた場合、1週間前と2週間前の金曜日の値が、比較対象のデータとなります。比較対象のスパイクを取り除くために、ここでは95パーセンタイルデータが比較対象に利用されています。

複数データのアノマリ検知の場合、15分毎にSite24x7がデータをプッシュします。過去2週間における1時間ごとの95パーセンタイルデータが比較対象となります。アノマリ検知が行われた場合、検知対象のパフォーマンス属性が特定されます。

対象の比較を基に、レベルL1、L2,、L3での、イベントが生成されます。ここでのL3が、重大度の最も高いアノマリとなります。

ドメインスコアリングでの異常重要度を決定

このステージでは、依存監視に見られる異常を考慮して、定性モデルの性格が、異常の生成に加わります。イベントの合算により、「異常の重要度」のスコア基準が決まります。アノマリ発生で、スコアリングタスクが行われる際、依存監視の過去30分でアノマリが発生しているか、エンジンが確認します。スコアは個々の監視のデータ属性に基づいて決められ、ベースラインからの偏差のパーセンテージが該当します。

最終スコア決定には、次の手法を用います。

同じ監視で検知された他の属性
アノマリが検知された依存監視
親または子の監視がアノマリ
同じ監視グループに属する監視がアノマリ
同じタグ（ユーザー定義タグ）が付与されている他の監視がアノマリ
同じサーバー名または同じFQDNの監視がアノマリ

最後に、検出した異常のドメインスコア、依存性、重大度などの要素にもとづき、異常の重要度は3つに分類されます。

アノマリ：断続的に発生する異常です。アノマリが長引くと、障害に大きな影響が及びます。何度も確認される異常には、最大限の注意を払う必要があります。
アノマリの可能性大：このトレンドは長期的には障害につながる可能性もあるため、継続して観察する必要があります。
情報：将来に問題化しても被害を軽減できるよう、観察が必要です。

AIベースしきい値プロファイル

AIベースのしきい値プロファイルは、監視ステータスにおけるアノマリ検知で使用されます。一定のしきい値とは異なり、動的なしきい値を設定します。一定のしきい値プロファイルでは、ユーザー自身でしきい値を設定して、監視ステータスを判別する必要があります。問題が発生し、しきい値違反があった場合に通知を行います。

AIベースのしきい値の場合、しきい値の設定を行う必要がありません。監視のふるまいに基づいて、動的なしきい値が設定されます。これにより、ポーリング設定を行う必要がなくなります。ポーリング設定は異常なスパイク検知するのに重要ですが、アノマリ検知の場合は、スパイク発生時に即座にその報告が行われます。

しくみ

しきい値プロファイルの設定画面より、一定しきい値またはAIベースしきい値の選択が行えます。AIベースしきい値を選択した場合、アノマリ属性を有効にする重大度選択オプションが表示されます。アノマリが有効となっていない属性では、プロファイルタイプの選択は行えず、一定のしきい値設定オプションのみ表示されます。一定およびAIベースしきい値の両方を選択することはできません。

AIベースしきい値プロファイルについて：

各属性で、LikelyとConfirmedの重大度を設定できます。Likelyはトラブルステータスに該当します。また、Confirmedの場合はクリティカルに該当し、これら該当ステータスの変更は行えません。
各属性に対して、IT自動化アクションを設定することもできます。

異常ダッシュボードの読み方

異常ダッシュボードにより、ITインフラのネガティブなトレンドは、容易に事前分析が可能となります。異常のフィルターは、監視か監視グループの選定で、可能です。

次の手順で異常ダッシュボードを表示します。

Site24x7アカウントにログインします。
ホーム > アノマリダッシュボードへ移動してください。

期間選択ツールで、「直近24時間から直近30日まで」から期間を選びます。異常は検索バーの監視/監視グループ名で、検索できます。
さらに、「確認済み、可能性大、情報」など、さまざまな重要度レベルに応じて、異常の分類も可能です。

ダッシュボードが作成されると、右上の共有ボタンをクリックして、メールでのレポートを共有と、PDFを作成できます。

ダッシュボードの内訳ビューでは、監視と監視グループすべてが、ダッシュボード左側に表示されます。ダッシュボードの右端では、異常サマリグラフを、検出した異常ごとに、期間と理由に応じて表示できます（異常は 異常履歴に表示されています）。異常は、監視や監視グループ名で検索したり、重要度レベルでフィルターしたりして、並べ替え可能です。 異常サマリグラフでは、選択期間内の、監視/監視グループ名の異常の件数を表示します。監視の異常件数は、積み重ね棒グラフで表示します。それぞれの異常は、異常履歴セクションに、詳細メッセージとあわせて示します。表示される異常には、それぞれ異常メッセージごとに重要度フラグが立ちます。この異常の説明により、異常トレンドの詳細情報が収集できます。パフォーマンスの問題について、根本原因をさらに追及するには、異常の説明に付随するハイパーリンクをクリックしてください。

異常サマリグラフは、選択期間のデータを表示します。ただし、異常の件数が100を超えると、その分のデータのみがグラフに表示され、残り日数のデータは無視されます。

それぞれの監視のグラフに表示される凡例は、フィルターとしても使えます。監視を指定して、棒グラフでの削除や再挿入ができます。

根本原因分析

メッセージを指定して根本原因を知るをクリックすると、モーダルダイアログで指示を求められ、過去4週間追跡したメトリックで線グラフを作成することが可能です。グラフにマウスカーソルをあてると、指定日時の実際の値が表示されます。メトリックのデフォルト値は、監視ごとに異なることがあります。すべての監視に、異常検出用に有効化されたデフォルト属性があります。他方、これに加えて、線グラフ上のドロップダウンを利用し、監視を選択して、同じ期間について、他のパフォーマンス属性を見ることもできます。

異常検出：有効な監視と対応するパフォーマンス属性

次の監視で、デフォルトでアノマリ検出が有効となっています。

監視タイプ	パフォーマンス属性
Webサイト	応答時間
DNSサーバー	応答時間
FTP転送	応答時間
Webページ（ブラウザー）	応答時間
ping	応答時間
FTPサーバー	応答時間
ポート（カスタムプロトコル）	応答時間
POPサーバー	応答時間
SMTPサーバー	応答時間
Webトランザクション（ブラウザー）	応答時間
Webトランザクション	応答時間
メール配信監視	応答時間
REST API監視	応答時間
SOAP Webサービス監視	応答時間
Microsoft Hyper-Vサーバー	正常性重大VM 論理プロセッサー仮想プロセッサー VMバス受信割り込み VMバススロットルイベント 1秒ごとのVMバス受信割り込み 1秒ごとのVMバス送信割り込み論理プロセッサーゲストランタイム論理プロセッサーHypervisorランタイム論理プロセッサーランタイム合計ルート仮想プロセッサー、ページフォールトインターセプト仮想プロセッサーのエミュレートされた命令仮想プロセッサーMSRアクセス 1秒ごとの仮想スイッチバイト 1秒ごとの仮想スイッチ受信パケット 1秒ごとの仮想スイッチ送信バイトメモリ需要
Microsoftフェールオーバークラスター	未処理のメッセージリソースホストサブシステムプロセス再起動リソースホストサブシステムプロセス使用スペース受信バイト送信バイト受信メッセージ送信メッセージオフラインリソース通常メッセージキュー長重大メッセージキュー長再接続数使用MB リソース失敗リソース失敗 - アクセス障害リソース失敗 - デッドロック
Microsoft Office 365	作成されたグループ削除されたグループ未アクティブメールボックス超過警告サイズ 25%未満使用率インバウンドアウトバウンドアクティブLyncユーザー Web会議電話会議 IM会議 AV会議アプリケーション共有会議オーディオセッションファイル転送セッション IMセッションビデオセッションアプリケーション共有セッション Share Pointユーザー割り当てライセンス必要なライセンスアクティブデプロイメント未アクティブデプロイメント使用サイズ
プラグイン	すべての属性
APMインサイト - アプリケーション	応答時間エラー数 Fatal数個々のコンポーネントの応答時間、リクエスト数と失敗数個々の例外数
APMインサイトインスタンス	応答時間エラー数 Fatal数個々のコンポーネントの応答時間、リクエスト数と失敗数個々の例外数
RUM	アプリケーションスループットロケーションスループットブラウザスループットブラウザフロントエンド時間ブラウザエラーパーセンテージロケーションネットワーク時間アプリケーションバックエンド時間
クラシックロードバランサー	レイテンシーリクエスト数
アプリケーションロードバランサー	レイテンシーリクエスト数
ネットワークロードバランサー	処理済みバイト消費LCU合計
Simple Notification Service	公開されたメッセージ数公開サイズ SMS成功レート
Simple Storage Service (S3)	バケットサイズオブジェクト数すべてのリクエスト
AWS Lambda	呼び出し（合計）エラー（合計）期間（合計）スロットル（合計）
Elastic MapReduce	失敗したジョブ失敗したアプリ読み取りS3バイト書き込みS3バイト読み取りHDFSバイト書き込みHDFSバイト失敗したステップ
Web Application Firewall (WAF)	許可されたリクエストブロックされたリクエストカウンターリクエストパスしたリクエスト
Neptuneインスタンス	CPU使用率使用ボリュームバイト空きメモリ
Neptuneクラスター	CPU使用率使用ボリュームバイト空きメモリ
Lightsailインスタンス	CPU使用率入力ネットワーク出力ネットワーク
Amazon GuardDuty	1日ごとのFinding 高

監視タイプ	パフォーマンス属性
EC2インスタンス	CPU使用量入力ネットワーク（受信バイト数）出力ネットワーク（送信バイト数）
RDSインスタンス	CPU使用量空きストレージデータベース接続
Microsoft IISサーバー	キュー済みリクエストアプリケーション再起動受信バイト送信バイトネットワーク統計キャッシュエントリ―合計キャッシュAPIヒット率キャッシュAPIターンオーバーレートキャッシュ%使用マシンメモリ制限 SQLサーバー接続セッション合計プロセッサー時間(%) 1秒ごとのIOデータ操作スレッド数プライベート/仮想メモリ(MB) 物理スレッド数
Microsoft Exchangeサーバー	DBキャッシュサイズキャッシュにより行われたページ要求数 1 秒あたりのDBキャッシュページフォールトストール I/O DB読み取り平均レイテンシー I/O DB書き込み平均レイテンシー 1秒ごとのIOログ書き込み RPC応答時間 RPC操作 RPCスローパケット数スローQPスレッドアクティブユーザー数 RPCリクエストアクティブクライアント数 1秒ごとのハブRPC送信リクエスト
Microsoft SQLサーバー	接続ログインバッチリクエスト SQLコンパイルレプリケーションマージの競合対象サーバーメモリサーバーメモリ合計 SQLキャッシュメモリオプティマイザーメモリ付与されたワークスペースメモリ保留中のメモリ付与チェックポイントページ遅い書き込みページ読み取りページ書き込みページ内訳フルスキャンプローブスキャンレンジスキャンエラー数プランキャッシュヒット率キャッシュページキャッシュオブジェクトキューされたジョブ失敗したジョブロック要求ロックタイムアウトデッドロック
サーバー監視	CPU使用量メモリ使用量使用済み物理メモリ使用済みスワップメモリメモリーページインメモリページフォールト 15分平均ディスク読み取りディスク書き込みコンテキストスイッチプロセッサー割り込み
Microsoft Sharepointサーバー Server	アクティブリクエストアクティブセッションリクエスト処理平均時間 1秒ごとのGet Dataリクエスト 1秒ごとの挿入リクエスト 1秒ごとの更新リクエスト 1秒ごとの削除リクエスト 1秒ごとの失敗した挿入リクエスト平均データ取得時間平均挿入時間平均更新時間フォームセッション平均時間トランザクション完了レートリクエスト処理時間 1秒ごとのVISIOリクエスト 1秒ごとのエラーキュー内のリクエスト拒否されたリクエスト 1秒ごとのASPリクエスト現在のセッション 1秒ごとの開始したトランザクション保留中のトランザクション ContentDBのサイト収集警告数失敗したクエリ成功したクエリ