HACMP認證知識:應用程序監視

除了資源組管理以外,HACMP 還可以通過以下兩種方法之一監視應用程序:

HACMP認證知識:應用程序監視

應用程序進程監視:使用 RSCT 事件管理功能檢測進程是否終止。

應用程序自定義監視:基於您定義的監視方法(程序或腳本)來監視應用程序的運行狀況。

注意:不能將應用程序進程監視用於監視通過 Shell 腳本啓動的應用程序,或那些監視進程無法確定應用程序運行狀況的應用程序。

對於監視 Shell 腳本應用程序,必須使用自定義監視方法(例如,Apache Web 服務器)。

  當應用程序監視處於活動狀態時,HACMP 的行爲如下:

對於應用程序進程監視,一個內核 hook 將通知 HACMP 集羣管理器所監視的進程已終止,HACMP 將啓動應用程序恢復過程。

要使恢復操作能夠進行,必須提供某種方法來清理和重新啓動應用程序(可以使用爲應用程序服務器定義提供的應用程序啓動/停止腳本)。

HACMP 嘗試重新啓動應用程序,並等待應用程序穩定指定的時間,然後發送通知消息和/或實際將整個 RG 移動到另一個節點(節點優先級列表中的下一個節點)。

對於自定義應用程序監視(自定義方法),除了應用程序清理和重新啓動方法以外,還必須提供用於執行定期應用程序測試的程序/腳本。

  要規劃進程監視器的配置,請檢查以下事項:

驗證該應用程序是否可以使用某個進程監視器進行監視。

檢查要監視的進程的名稱。必須使用準確的進程名稱來配置應用程序監視器。

指定擁有進程的用戶名,例如 root。請注意,該進程擁有者必須擁有要監視的所有進程。

指定要監視的應用程序的實例數量(進程數量)。缺省爲一個實例。

指定在開始監視前的等待時間(以秒爲單位)。

注意:在大多數情況下,此值不應該爲零。例如,對於數據庫應用程序,您可能希望將監視延遲到啓動腳本和初始數據庫搜索已完成之後。

重新啓動數值,表示在採取任何其他操作之前嘗試重新啓動應用程序的次數。

在重置重新啓動數值前應用程序必須保持穩定的間隔(以秒爲單位)。

要在應用程序無法在重新啓動數值內重新啓動時採取的操作。缺省選擇是通知,即運行一個事件來向集羣通知故障情況。還可以指定故障轉移,在此情況下,包含故障應用程序的資源組將移動到對該資源組擁有下一個最高優先級的集羣節點。

重新啓動方法(如果希望的話)。(如果“Restart Count”不爲零,則這是必需的。)

  如果計劃建立自定義監視方法,則還要檢查:

是否已指定了要用於檢查指定應用程序的程序/腳本。

關於運行該監視方法的'頻度的輪詢間隔(以秒爲單位)。如果監視器在此間隔內沒有響應,則認爲應用程序出錯,並啓動恢復過程。

在用戶定義的監視方法未在輪詢間隔內返回時用於終止該監視器方法的信號。缺省信號爲 SIGKILL。

開始監視前的等待時間(以秒爲單位)。例如,對於數據庫應用程序,建議將監視延遲到啓動腳本和初始數據庫搜索已完成之後(否則,可能會認爲應用程序出錯並啓動恢復過程)。

重新啓動數值,即在採取任何其他操作之前嘗試重新啓動應用程序的次數。

在重置重新啓動數值前應用程序必須保持穩定的間隔(以秒爲單位)。

在應用程序無法在重新啓動數值內重新啓動時採取的操作。