AWS Glueは、複数のリソースデータのディスカバリー、構成、移行、連携を行えるサーバーレスデータ連携サービスです。
Site24x7との連携により、Amazon Glue監視の正常性とパフォーマンスを監視します。
この連携では次の単位で監視を行います。
Glueジョブ:抽出、転換、ロード(ETL)ジョブとパフォーマンスを監視します。
Glue Crawler:クローラー実行とデータソースを分析します。
AWS Glueを使用して、ジョブ実行を手動でスケジュールまたはトリガ―しているとします。このジョブ実行は失敗、タイムアウト、エラー、待機ステータスにより想定していない問題を引き起こします。
Site24x7との連携により、ジョブ実行の待機、失敗、タイムアウト、エラーに関するアラートを通知し、問題の特定と再発の帽子を行います。
この連携による利点は次のとおりです。
GlueジョブとGlueクローラーを監視するには、AWSで次の権限が必要です。
1分から1日までの間でチェック間隔を指定し、監視データを収集できます。
AWS Glue監視でサポートしているメトリックを記載します。
Glueジョブ監視でサポートしているメトリックは次のとおりです。
メトリック名 | 説明 | 統計 | 単位 |
---|---|---|---|
実行の合計 | ジョブ実行回数の合計です。 | 合計 | 数 |
完了した実行 | 完了したジョブ実行数です。 | 合計 | 数 |
失敗した実行 | 失敗したジョブ実行数です。 | 合計 | 数 |
中断した実行 | 中断したジョブ実行数です。 | 合計 | 数 |
エラー実行 | エラージョブ実行数です。 | 合計 | 数 |
タイムアウト実行 | タイムアウトジョブ実行数です。 | 合計 | 数 |
待機中実行 | 待機ステータスのジョブ実行数です。 | 合計 | 数 |
完了した実行パーセンテージ | 完了したジョブ実行のパーセンテージです。 | 平均 | パーセンテージ |
失敗した実行パーセンテージ | 失敗したジョブ実行のパーセンテージです。 | 平均 | パーセンテージ |
中断した実行パーセンテージ | 中断したジョブ実行のパーセンテージです。 | 平均 | パーセンテージ |
エラー実行パーセンテージ | エラージョブ実行のパーセンテージです。 | 平均 | パーセンテージ |
タイムアウト実行パーセンテージ | タイムアウトジョブ実行のパーセンテージです。 | 平均 | パーセンテージ |
待機中実行パーセンテージ | 待機中ステータスのジョブ実行のパーセンテージです。 | 平均 | パーセンテージ |
次のSpark、Sparkストリーミング、Python Shellジョブタイプのメトリックは、AWS Glueコンソールの[詳細プロパティ]→[ジョブメトリック]が有効化されている場合にのみ収集されます。
メトリック名 | 説明 | 統計 | 単位 |
---|---|---|---|
CPUロード使用率 | ドライバーにより使用されたCPUシステムロードの平均です。 | 平均 | パーセンテージ |
読み取りバイト | 全エグゼキューターで実行されている完了したSparkタスクに読み取られたデータソースのバイト数です。 | 合計 | バイト |
読み取りレコード | すべてのデータソースから読み取られたレコード数です。 | 合計 | 数 |
S3からの読み取り | エグゼキューターによりS3から読み取られたバイト数です。 | 合計 | バイト |
S3への書き込み | エグゼキューターによりS3に書き込まれたバイト数です。 | 合計 | バイト |
読み取りシャッフルバイト | エグゼキューターによりシャッフルデータから読み取られたバイト数です。 | 合計 | バイト |
書き込みシャッフルバイト | エグゼキューターによりシャッフルデータに書き込まれたバイト数です。 | 合計 | バイト |
ドライバー使用メモリ | ドライバーのJava Virtual Machine (JVM)ヒープで使用されたメモリバイトです。 | 平均 | バイト |
エグゼキューター使用メモリ | エグゼキューターのJVMヒープで使用されたメモリバイトです。 | 平均 | バイト |
使用ディスク | 全エグゼキューターで使用されているディスク容量のメガバイトです。 | 平均 | メガバイト |
ETL経過時間 | ジョブボートストラップ時間を含まないETL経過時間です。 | 合計 | ミリ秒 |
完了したタスク | ジョブで完了したタスク数です。 | 合計 | 数 |
失敗タスク | ジョブで失敗したタスク数です。 | 合計 | 数 |
Killタスク | ジョブでKillされたタスク数です。 | 合計 | 数 |
完了したステージ | ジョブで完了したステージ数です。 | 合計 | 数 |
Sparkストリーミングタイプのみ次のメトリックが表示されます。これらメトリックはAWS Glueコンソールの[詳細プロパティ]→[ジョブメトリック]が有効化されている場合にのみ収集されます。
メトリック名 | 説明 | 統計 | 単位 |
---|---|---|---|
ストリーミングバッチ受信レコード | マイクロバッチで受信されたレコード数です。 | 合計 | 数 |
バッチ処理時間 | クラスターが過少プロビジョニングまたは過剰プロビジョニングされているかどうかの判断に使用します。 | 合計 | ミリ秒 |
1秒ごとの入力レコード | 受信された入力レコードレートです。 | 合計 | 数 |
1秒ごとの処理レコード | 処理されたレコードレートです。 | 合計 | 数 |
すべてのエグゼキューター | アクティブに実行しているジョブエグゼキューター数です。 | 平均 | 数 |
最大エグゼキューター | 現在のロードを満足に行うための、実行中および保留中のジョブエグゼキューターの最大数です。 | 平均 | 数 |
次のSpark、Sparkストリーミング、Python ShellジョブタイプのGlueオブザーバビリティメトリックは、AWS Glueコンソールの[ジョブ詳細]タブで、[詳細プロパティ]→[ジョブオブザーバビリティ]オプションが有効となってる場合にのみ収集されます。
メトリック名 | 説明 | 統計 | 単位 |
---|---|---|---|
ジョブ歪度 | ジョブステージ歪度の平均です。 | 平均 | 数 |
ワーカー使用率 | 実際に使用された割り当て済みワーカーのパーセンテージです。 | 平均 | パーセンテージ |
使用ドライバーディスク | ドライバーにより使用されているディスクのパーセンテージです。 | 平均 | パーセンテージ |
使用エグゼキューターディスク | エグゼキューターにより使用されているディスク容量のパーセンテージです。 | 平均 | パーセンテージ |
Glue Crawler監視でサポートしているメトリックは次のとおりです。
メトリック名 | 説明 | 統計 | 単位 |
---|---|---|---|
作成テーブル | 作成されたテーブル数です。 | 平均 | 数 |
更新テーブル | 更新されたテーブル数です。 | 平均 | 数 |
削除テーブル | 削除されたテーブル数です。 | 平均 | 数 |
残り時間 | クロール実行完了までの推定残り時間です。 | 合計 | 秒 |
直近ランタイム秒 | 直近のクローラー実行の期間です。 | 合計 | 秒 |
中間ランタイム秒 | すべてのクローラー実行の中間ランタイム期間です。 | 合計 | 秒 |
実行の合計 | クローラー実行数の合計です。 | 合計 | 数 |
完了した実行 | 完了したクローラー実行数です。 | 合計 | 数 |
失敗した実行 | 失敗したクローラー実行数です。 | 合計 | 数 |
中断した実行 | 中断したクローラー実行数です。 | 合計 | 数 |
完了した実行パーセンテージ | 完了したクローラー実行のパーセンテージです。 | 平均 | パーセンテージ |
失敗した実行パーセンテージ | 失敗したクローラー実行のパーセンテージです。 | 平均 | パーセンテージ |
中断した実行パーセンテージ | 完了したクローラー実行のパーセンテージです。 | 平均 | パーセンテージ |
AWS Glue監視のしきい値設定方法は次のとおりです。
IT自動化を追加して、GlueジョブとGlue Crawler実行を行えます。
[管理]→[IT自動化テンプレート]→[IT自動化テンプレートの追加]に移動し追加を行うと、それらをスケジュールして実行することができます。
AWS Glueジョブデータの表示方法は次のとおりです。
AWS Glue Crawlerデータの表示方法は次のとおりです。
Glueジョブデータは次のタブで表示されます。
[サマリー]
チャート形式でメトリックの概要とイベントタイムラインを表示します。
Glueジョブパフォーマンスと直近のジョブ実行情報もこのタブで表示されます。
[ジョブ実行]
全ジョブ実行に関する情報を表示します。
実行ID、ステータス、開始時間、終了時間、ロググループ名で情報をフィルターできます。
実行IDハイパーリンクをクリックすると、ジョブ実行詳細ページに移動し、ジョブ実行の概要を表示します。
[接続]
ジョブの接続を表示します。
接続名、タイプ、作成時間といったオプションで情報をフィルターできます。
[トリガー]
トリガー名、タイプ、作成時間といったGlueトリガー情報を表示します。
[設定]
表示名、タイプ、作成時間、スクリプトロケーションといったGlueジョブ監視に関する情報を表示します。
ソース詳細項目でレポジトリープロバイダー、レポジトリー名、ブランチ名といったジョブが保存されているリモートリソースを表示します。
[障害]
障害の開始時間、終了時間、期間、コメントといった情報を表示します。
[インベントリー]
ジョブ名、リージョン、監視ライセンスカテゴリーなどの情報を表示します。
このタブからしきい値と可用性および通知プロファイルの設定と表示を行えます。
[ログレポート]
Glueジョブ監視のログステータスの集約レポートを表示します。CSV形式でダウンロードも可能です。
Glue Crawlerデータは次のタブで表示されます。
[サマリー]
チャート形式でメトリックの概要とイベントタイムラインを表示します。
Glue Crawlerパフォーマンスと直近のクローラー実行情報もこのタブで表示されます。
[クローラー実行]
すべてのクローラー実行の情報を共有します。実行ID、ステータス、開始時間、終了時間、DPU時間で情報をフィルターできます。
実行IDハイパーリンクをクリックすると、クローラー実行詳細ページに移動し、クローラー実行の概要を表示できます。
[分類子]
クローラーで指定されている分類子情報を表示します。分類子名、タイプ、作成時間でフィルターできます。
[クローラーソース]
クローラーがデータを抽出するソース情報を表示します。ソース名、接続名、パス、テーブル数を表示します。
[設定]
表示名、ステータス、バージョン、作成日といったGlue Crawler監視に関する設定情報を表示します。
[障害]
障害の開始時間、終了時間、期間、コメントといった情報を表示します。
[インベントリー]
クローラー名、リージョン、監視ライセンスカテゴリーなどの情報を表示します。
このタブからしきい値と可用性および通知プロファイルの設定と表示を行えます。
[ログレポート]
Glue Crawler監視のログステータスの集約レポートを表示します。CSV形式でダウンロードも可能です。