Site24x7はCloudWatch APIで、アベイラビリティ ゾーンごとに、稼働中のEC2インスタンスと、アタッチしたEBSボリュームすべてに、自動ディスカバリを行います。完了すると、Site24x7のコンソールには、EC2 CloudWatch監視がインスタンスごとに作成されています。
EC2インスタンスを検出すると、通常型でも動的スケーリングのインスタンスでも、監視として追加され、デフォルトしきい値プロファイルが決定します。このプロファイルでは、EC2とEBSのすべてのサポート対象となるパフォーマンス メトリックをリストにしています。このプロファイルには、しきい値設定は、事前投入されていないので、ご注意ください。お客さまは、デフォルト プロファイルの編集も、新規作成も可能です。
対象のEC2インスタンスとアタッチしたElastic Block Store(EBS)ボリュームに、監視のしきい値プロファイルを新しく作るには、下記手順にしたがってください。アラート連絡先の作成やアラート設定のカスタマイズについて、詳細は、当社の ユーザーとアラートの管理ページを参照ください。
EC2インスタンスとEBSボリュームでサポートするパフォーマンス メトリックは、下に示します。所定のフィールドに値を入れ、条件を設定(>、<、>=、<=)、属性ごとにアラート作戦を決めてください。それぞれのフィールドに入れた値が、しきい値を決定します。しきい値違反の場合は、EC2インスタンス CloudWatch監視のステータスは、アップからトラブルに変わり、アラートを起動します。しきい値設定を終えたら、プロファイル保存へと進んでください。プロファイルはしきい値・可用性画面に表示されます。
はいを選択すると、オートスケーリングによってインスタンスが削除された際に通知します。
はいを選択すると、オートスケーリングによってインスタンスが作成された際に通知します。
エージェント失敗の通知トグルボタンは、LinuxやWindowsのエージェントを、監視するEC2インスタンスに展開済みの場合のみ有効となります。
ハード・ソフトの問題がEC2環境に悪影響を与え始めると、ただちにアラートが発生します。
デフォルトでは、EC2ステータス確認失敗へのアラート、すなわち、システム確認とインスタンス確認の失敗は、通常インスタンスでも自動スケール インスタンスでも、有効となっています。ステータス確認失敗の際に、どのような通知を希望するかは、トグルボックスでトラブル・ダウンへ動かして設定します。ステータス確認は不要の場合、EC2インスタンスのしきい値プロファイルへ移動し、トグルボタンを「なし」にすれば、本機能はオフとなります。
デフォルトでスポットインスタンスの中断(削除)のアラート通知は無効化されています。このアラートが必要な場合は、設定しているしきい値プロファイルに移動し、この項目で"はい"を選択するかしきい値プロファイルを作成して一括設定してください。
デフォルトで予約インスタンスの削除アラートは無効化されています。このアラートが必要な場合は、設定しているしきい値プロファイルに移動し、この項目で"はい"を選択するかしきい値プロファイルを作成して一括設定してください。
デフォルトでEMRクラスタノードマスター、Core、タスクノードを駆動しているEC2インスタンスグループの削除アラートはミュートされています。このアラートが必要な場合は、設定しているしきい値プロファイルに移動し、この項目で"はい"を選択してください。
はいを選択して、EBSデータボリュームのポテンシャルデータに不整合があった際に通知を行います。ボリュームステータスチェックは5分ごとに自動テストされています。このテストが成功すると、ステータスは"OK"と表示されます。失敗するとエラーとなります。
はいを選択して、EC2インスタンスとGPU間の接続に問題があった際に通知します。GPU接続チェックは5分ごとに自動テストされています。このテストが成功すると"アップ"となり、失敗すると設定に基づいて、"ダウン、トラブル、クリティカル"となります。
はいを選択して、EC2インスタンスに接続されているGPUの正常性チェックに失敗があった際に通知します。GPU正常性チェックは5分ごとに自動テストされています。このテストが成功すると、GPUステータスが"UP"となり、失敗すると設定に基づいて、"ダウン、トラブル、クリティカル"となります。
はいを選択して、EC2インスタンスに接続しているEIアクセラレーターの正常性チェックに失敗があった際に通知を行います。EIアクセラレーター正常性チェックは5分ごとに自動テストされています。このテストが成功すると、EIアクセラレーター正常性ステータスが"UP"となり、失敗すると設定に基づいて、"ダウン、トラブル、クリティカル"となります。
はいを選択すると、EC2インスタンスとEIアクセラレーター間の接続に問題があった際に通知を行います。EIアクセラレーター接続チェックは5分ごとに自動テストされています。このテストが成功すると、EIアクセラレーター接続ステータスが"UP"となり、失敗すると設定に基づいて、"ダウン、トラブル、クリティカル"となります。
CPU利用状況、ディスクI/O、ネットワーク トラフィックなどの、Amazon EC2インスタンスのパフォーマンス メトリックを監視します。Site24x7は、検出したすべてのEC2インスタンスの標準パフォーマンス情報を収集します。終了すると、サポート対象の属性それぞれに、しきい値をSite24x7のUIで設定できます。
Elastic Block Store ボリュームの、ストレージやI/Oの問題を検知します。アタッチしたEBSボリュームごとに、帯域、遅延、スループットなどのパフォーマンス レポートに、しきい値をセットしてください。
Elastic Block Store(EBS)ボリュームのしきい値を設定し、EC2インスタンスのしきい値プロファイルにアクセスすると、すべてのEBS属性が包括されるようになります。EC2インスタンスに設定したデフォルトしきい値プロファイルを編集することも、新規しきい値プロファイルを作ることもできます。監視するEC2インスタンスすべてに、このプロファイルを一括割り当てすることも可能です。複数のEBSボリュームを同じECインスタンスにアタッチ済みであれば、ボリューム属性の設定しきい値は、これらすべてに適用されます。
たとえば、複数のEBSボリュームをアタッチし、ストレージのキャパシティやI/O帯域を増やしたとします。プライマリのボリュームをrootとして利用し、データベースとストレージの負荷に対処するため、2つのボリュームを別途した場合は、EBSボリュームごとに、個別のしきい値設定が必要となることがあります。この場合、前記のEC2インスタンス監視のボリューム タブで、しきい値プロファイルをそれぞれ、ボリュームごとに、作成・適用してください。
ユーザー エージェント(LinuxかWindows)を、当社CloudWatch連携で監視対象となっているEC2インスタンスに展開すると、EC2インスタンスの統合監視が始まります。このタイプの監視には、2種類のしきい値プロファイルが関連付けられます。一方は、インスタンス レベルのCloudWatch基本メトリックの、他方は、エージェントが作成するシステム メトリックの関連です。
しきい値を設定するには、EC2インスタンスの統合監視ページの編集セクションに移動してください。
始めに、サーバー > EC2インスタンス > 「EC2インスタンスの連携監視を選択」 > > 編集 と選択してください。
設定プロファイル セクションの下から、編集ページでは、2つのしきい値プロファイルのフィールドが表示されています。しきい値・可用性と、エージェントしきい値プロファイルです。ここで、編集か追加をクリックしてください。
しきい値可用性プロファイルには、CloudWatch関連の標準的なEC2パフォーマンス カウンターが含まれます。エージェントの問題でアラートを発するかの設定も可能です。通知は断次第で、トラブルにもダウンにも設定できます。
エージェントしきい値プロファイルには、メモリ利用状況、ディスク利用状況、ならびに、各種LinuxやWindows属性などの、システム パフォーマンスのカウンターが含まれます。
条件とアラート作戦の設定により、しきい値違反の検証も可能となります。たとえば、インスタンスのCPU利用率が95%を超えたとします。しかし、ネットワーク トラフィックの突発的な一時増で、CPU利用率が、95%を超えるのはありうることです。このような短期的な効果については、ただちにアラートをあげる必要もなく、ネットワークの鎮静にあわせてCPU利用も減るものと予想されます。この例では、アラート作戦をポーリング回数や平均的持続に設定し、CPU利用の上昇が、恒常的なものが短期的なものかを判断することができます。