ヘルプ 管理 設定プロファイル EC2インスタンスとEBSボリュームのしきい値設定

EC2インスタンスとEBSボリュームのしきい値設定

Site24x7はCloudWatch APIで、アベイラビリティ ゾーンごとに、稼働中のEC2インスタンスと、アタッチしたEBSボリュームすべてに、自動ディスカバリを行います。完了すると、Site24x7のコンソールには、EC2 CloudWatch監視がインスタンスごとに作成されています。

EC2インスタンスを検出すると、通常型でも動的スケーリングのインスタンスでも、監視として追加され、デフォルトしきい値プロファイルが決定します。このプロファイルでは、EC2とEBSのすべてのサポート対象となるパフォーマンス メトリックをリストにしています。このプロファイルには、しきい値設定は、事前投入されていないので、ご注意ください。お客さまは、デフォルト プロファイルの編集も、新規作成も可能です。

対象のEC2インスタンスとアタッチしたElastic Block Store(EBS)ボリュームに、監視のしきい値プロファイルを新しく作るには、下記手順にしたがってください。アラート連絡先の作成やアラート設定のカスタマイズについて、詳細は、当社の ユーザーとアラートの管理ページを参照ください。

EC2 CloudWatch監視にしきい値プロファイルを作成するには

  • 管理 > 設定プロファイル > しきい値・可用性 とクリックしてください。
  • しきい値・可用性画面で、しきい値の追加をクリック。
  • 次の情報を指定してください。
    • 監視タイプ:ドロップダウンからEC2インスタンス監視を選択してください。
    • 表示名:対象を特定するラベルとして使います。

EC2インスタンスとEBSボリュームでサポートするパフォーマンス メトリックは、下に示します。所定のフィールドに値を入れ、条件を設定(>、<、>=、<=)、属性ごとにアラート作戦を決めてください。それぞれのフィールドに入れた値が、しきい値を決定します。しきい値違反の場合は、EC2インスタンス CloudWatch監視のステータスは、アップからトラブルに変わり、アラートを起動します。しきい値設定を終えたら、プロファイル保存へと進んでください。プロファイルはしきい値・可用性画面に表示されます。

しきい値プロファイルで表示される項目

オートスケーリングインスタンス削除の通知

はいを選択すると、オートスケーリングによってインスタンスが削除された際に通知します。

オートスケーリングインスタンス作成の通知

はいを選択すると、オートスケーリングによってインスタンスが作成された際に通知します。

エージェント失敗の通知

エージェント失敗の通知トグルボタンは、LinuxやWindowsのエージェントを、監視するEC2インスタンスに展開済みの場合のみ有効となります。

ステータス チェック失敗時の通知

ハード・ソフトの問題がEC2環境に悪影響を与え始めると、ただちにアラートが発生します。
デフォルトでは、EC2ステータス確認失敗へのアラート、すなわち、システム確認とインスタンス確認の失敗は、通常インスタンスでも自動スケール インスタンスでも、有効となっています。ステータス確認失敗の際に、どのような通知を希望するかは、トグルボックスでトラブル・ダウンへ動かして設定します。ステータス確認は不要の場合、EC2インスタンスのしきい値プロファイルへ移動し、トグルボタンを「なし」にすれば、本機能はオフとなります。

スポットインスタンス削除の通知

デフォルトでスポットインスタンスの中断(削除)のアラート通知は無効化されています。このアラートが必要な場合は、設定しているしきい値プロファイルに移動し、この項目で"はい"を選択するかしきい値プロファイルを作成して一括設定してください。

予約インスタンス削除の通知

デフォルトで予約インスタンスの削除アラートは無効化されています。このアラートが必要な場合は、設定しているしきい値プロファイルに移動し、この項目で"はい"を選択するかしきい値プロファイルを作成して一括設定してください。

EMRインスタンス削除の通知

デフォルトでEMRクラスタノードマスター、Core、タスクノードを駆動しているEC2インスタンスグループの削除アラートはミュートされています。このアラートが必要な場合は、設定しているしきい値プロファイルに移動し、この項目で"はい"を選択してください。

ボリュームステータスチェック失敗の通知

はいを選択して、EBSデータボリュームのポテンシャルデータに不整合があった際に通知を行います。ボリュームステータスチェックは5分ごとに自動テストされています。このテストが成功すると、ステータスは"OK"と表示されます。失敗するとエラーとなります。

GPU接続チェック失敗の通知

はいを選択して、EC2インスタンスとGPU間の接続に問題があった際に通知します。GPU接続チェックは5分ごとに自動テストされています。このテストが成功すると"アップ"となり、失敗すると設定に基づいて、"ダウン、トラブル、クリティカル"となります。

GPU正常性チェック失敗の通知

はいを選択して、EC2インスタンスに接続されているGPUの正常性チェックに失敗があった際に通知します。GPU正常性チェックは5分ごとに自動テストされています。このテストが成功すると、GPUステータスが"UP"となり、失敗すると設定に基づいて、"ダウン、トラブル、クリティカル"となります。

アクセラレーター正常性チェック失敗の通知

はいを選択して、EC2インスタンスに接続しているEIアクセラレーターの正常性チェックに失敗があった際に通知を行います。EIアクセラレーター正常性チェックは5分ごとに自動テストされています。このテストが成功すると、EIアクセラレーター正常性ステータスが"UP"となり、失敗すると設定に基づいて、"ダウン、トラブル、クリティカル"となります。

アクセラレーター接続チェック失敗の通知

はいを選択すると、EC2インスタンスとEIアクセラレーター間の接続に問題があった際に通知を行います。EIアクセラレーター接続チェックは5分ごとに自動テストされています。このテストが成功すると、EIアクセラレーター接続ステータスが"UP"となり、失敗すると設定に基づいて、"ダウン、トラブル、クリティカル"となります。

しきい値設定(EC2属性)

CPU利用状況、ディスクI/O、ネットワーク トラフィックなどの、Amazon EC2インスタンスのパフォーマンス メトリックを監視します。Site24x7は、検出したすべてのEC2インスタンスの標準パフォーマンス情報を収集します。終了すると、サポート対象の属性それぞれに、しきい値をSite24x7のUIで設定できます。

しきい値プロファイル:EC2インスタンス

ボリュームしきい値設定(EBS属性)

Elastic Block Store ボリュームの、ストレージやI/Oの問題を検知します。アタッチしたEBSボリュームごとに、帯域、遅延、スループットなどのパフォーマンス レポートに、しきい値をセットしてください。

しきい値プロファイル:EBSボリューム
複数EBSボリュームに、1つのしきい値プロファイルをグローバルに割り当てる

Elastic Block Store(EBS)ボリュームのしきい値を設定し、EC2インスタンスのしきい値プロファイルにアクセスすると、すべてのEBS属性が包括されるようになります。EC2インスタンスに設定したデフォルトしきい値プロファイルを編集することも、新規しきい値プロファイルを作ることもできます。監視するEC2インスタンスすべてに、このプロファイルを一括割り当てすることも可能です。複数のEBSボリュームを同じECインスタンスにアタッチ済みであれば、ボリューム属性の設定しきい値は、これらすべてに適用されます。

アタッチしたEBSボリュームごとのしきい値設定

たとえば、複数のEBSボリュームをアタッチし、ストレージのキャパシティやI/O帯域を増やしたとします。プライマリのボリュームをrootとして利用し、データベースとストレージの負荷に対処するため、2つのボリュームを別途した場合は、EBSボリュームごとに、個別のしきい値設定が必要となることがあります。この場合、前記のEC2インスタンス監視のボリューム タブで、しきい値プロファイルをそれぞれ、ボリュームごとに、作成・適用してください。

EBSボリューム タブ  しきい値プロファイル:それぞれのEBSボリューム

しきい値設定プロファイル(EC2インスタンスの統合監視)

ユーザー エージェント(LinuxかWindows)を、当社CloudWatch連携で監視対象となっているEC2インスタンスに展開すると、EC2インスタンスの統合監視が始まります。このタイプの監視には、2種類のしきい値プロファイルが関連付けられます。一方は、インスタンス レベルのCloudWatch基本メトリックの、他方は、エージェントが作成するシステム メトリックの関連です。

しきい値プロファイル:EC2インスタンスの統合監視 

しきい値を設定するには、EC2インスタンスの統合監視ページの編集セクションに移動してください。

始めに、サーバー > EC2インスタンス > 「EC2インスタンスの連携監視を選択」 > ハンバーガー アイコン(三枚重ねマーク「≡」)  > 編集 と選択してください。

設定プロファイル セクションの下から、編集ページでは、2つのしきい値プロファイルのフィールドが表示されています。しきい値・可用性と、エージェントしきい値プロファイルです。ここで、編集か追加をクリックしてください。

しきい値可用性プロファイルには、CloudWatch関連の標準的なEC2パフォーマンス カウンターが含まれます。エージェントの問題でアラートを発するかの設定も可能です。通知は断次第で、トラブルにもダウンにも設定できます。

しきい値プロファイル:EC2インスタンスの統合監視 

エージェントしきい値プロファイルには、メモリ利用状況、ディスク利用状況、ならびに、各種LinuxやWindows属性などの、システム パフォーマンスのカウンターが含まれます。

しきい値プロファイル:EC2インスタンスの統合監視 

高度なしきい値設定

条件とアラート作戦の設定により、しきい値違反の検証も可能となります。たとえば、インスタンスのCPU利用率が95%を超えたとします。しかし、ネットワーク トラフィックの突発的な一時増で、CPU利用率が、95%を超えるのはありうることです。このような短期的な効果については、ただちにアラートをあげる必要もなく、ネットワークの鎮静にあわせてCPU利用も減るものと予想されます。この例では、アラート作戦をポーリング回数や平均的持続に設定し、CPU利用の上昇が、恒常的なものが短期的なものかを判断することができます。

高度なしきい値設定(作戦):
ポーリング回数はしきい値違反を確認する際に、デフォルトの作戦として利用します。下記しきい値作戦のどれかに適用される条件がtrueであれば、監視ステータスが「トラブル」になります。
  • ポーリング回数でのしきい値条件確認:しきい値に適用する条件が、指定の「ポーリング回数」を通じて妥当する場合、監視ステータスは、トラブルに変わります。
  • ポーリング回数での平均値属性値平均が、指定のポーリング回数にわたり、継続してしきい値への適用条件を満たす場合、監視ステータスは、トラブルに変わります。
  • 指定期間での条件確認(分):しきい値への指定条件が、設定期間を通じて、すべてのポーリングについて継続して妥当の場合、監視ステータスは、トラブルに変わります。
  • 指定期間での平均値(分):属性値平均が、設定期間について、しきい値への適用条件を継続して満たす場合、監視ステータスは、トラブルに変わります。

デフォルトでは、複数のポーリング チェック プランが適用されることはありません。適用されるプランがなければ、しきい値違反は、ポーリング1回で判別します。

 

プラン3「指定期間での条件確認」や4「指定期間での平均値」でしきい値違反を確実に検出するには、チェック間隔を最低2回カバーするように、期間を指定する必要する必要があります。

トップ