HACMP认证知识:应用程序监视
除了资源组管理以外,HACMP 还可以通过以下两种方法之一监视应用程序:
应用程序进程监视:使用 RSCT 事件管理功能检测进程是否终止。
应用程序自定义监视:基于您定义的监视方法(程序或脚本)来监视应用程序的运行状况。
注意:不能将应用程序进程监视用于监视通过 Shell 脚本启动的应用程序,或那些监视进程无法确定应用程序运行状况的应用程序。
对于监视 Shell 脚本应用程序,必须使用自定义监视方法(例如,Apache Web 服务器)。
当应用程序监视处于活动状态时,HACMP 的行为如下:
对于应用程序进程监视,一个内核 hook 将通知 HACMP 集群管理器所监视的进程已终止,HACMP 将启动应用程序恢复过程。
要使恢复操作能够进行,必须提供某种方法来清理和重新启动应用程序(可以使用为应用程序服务器定义提供的应用程序启动/停止脚本)。
HACMP 尝试重新启动应用程序,并等待应用程序稳定指定的时间,然后发送通知消息和/或实际将整个 RG 移动到另一个节点(节点优先级列表中的下一个节点)。
对于自定义应用程序监视(自定义方法),除了应用程序清理和重新启动方法以外,还必须提供用于执行定期应用程序测试的程序/脚本。
要规划进程监视器的配置,请检查以下事项:
验证该应用程序是否可以使用某个进程监视器进行监视。
检查要监视的进程的名称。必须使用准确的进程名称来配置应用程序监视器。
指定拥有进程的用户名,例如 root。请注意,该进程拥有者必须拥有要监视的所有进程。
指定要监视的应用程序的实例数量(进程数量)。缺省为一个实例。
指定在开始监视前的等待时间(以秒为单位)。
注意:在大多数情况下,此值不应该为零。例如,对于数据库应用程序,您可能希望将监视延迟到启动脚本和初始数据库搜索已完成之后。
重新启动数值,表示在采取任何其他操作之前尝试重新启动应用程序的次数。
在重置重新启动数值前应用程序必须保持稳定的间隔(以秒为单位)。
要在应用程序无法在重新启动数值内重新启动时采取的操作。缺省选择是通知,即运行一个事件来向集群通知故障情况。还可以指定故障转移,在此情况下,包含故障应用程序的资源组将移动到对该资源组拥有下一个最高优先级的集群节点。
重新启动方法(如果希望的话)。(如果“Restart Count”不为零,则这是必需的。)
如果计划建立自定义监视方法,则还要检查:
是否已指定了要用于检查指定应用程序的程序/脚本。
关于运行该监视方法的'频度的轮询间隔(以秒为单位)。如果监视器在此间隔内没有响应,则认为应用程序出错,并启动恢复过程。
在用户定义的监视方法未在轮询间隔内返回时用于终止该监视器方法的信号。缺省信号为 SIGKILL。
开始监视前的等待时间(以秒为单位)。例如,对于数据库应用程序,建议将监视延迟到启动脚本和初始数据库搜索已完成之后(否则,可能会认为应用程序出错并启动恢复过程)。
重新启动数值,即在采取任何其他操作之前尝试重新启动应用程序的次数。
在重置重新启动数值前应用程序必须保持稳定的间隔(以秒为单位)。
在应用程序无法在重新启动数值内重新启动时采取的操作。
相關文章
-
HACMP认证知识:应用程序兼容性
运行在某个独立 AIX 服务器上的几乎任何应用程序都可以通过使用 HACMP 集群得到保护,从这个意义上讲,HACMP 是一个灵活的高可用性解决方案。在开始集群应用程序规划时,应该考虑以下方面:与所使用的 AIX 版本的应用程序兼 -
IBM的HACMP认证知识:HACMP的规划
规划是成功的实现的一半,但是就 HACMP 而言,如何强调正确规划的重要性都不为过。如果规划不当,您可能会在以后某个时候发现自己陷入种种限制之中,而要摆脱这些限制可能是非常痛苦的经历。因此,请保持镇定从容,并使用产品附 -
IBM认证知识:HACMP术语
从 HACMP V5.1 开始,用于描述 HACMP 配置和操作的术语已发生了很大的变化。做出此更改是为了简化 HACMP 的总体使用和维护,同时也是为了使术语与 IBM 产品系列保持一致。例如,在早期的 HACMP 版本中,取决于上下文,术语适配 -
IBM认证知识:HACMP集群规划
集群规划也许是实现成功的配置过程中最重要的步骤。HACMP 规划应该包括以下方面:硬件规划节点网络存储软件规划操作系统版本HACMP 版本应用程序兼容性测试和维护规划测试过程变更管理管理操作硬件规划实现高可用性配置 -
HACMP认证知识:共享LVM要求
HACMP 集群的共享 LVM 规划取决于共享磁盘访问方法和共享磁盘设备的类型。应该为共享 LVM 考虑的元素包括:数据保护方法存储访问方法存储硬件冗余注意:HACMP 本身不提供存储保护。存储保护是通过以下途径提供的:AIX(LVM -
IBM认证知识:HACMP心跳检测
与在许多其他类型的集群中一样,心跳检测用于监视网络接口、通信设备和 IP 标签(服务、非服务和持久 IP 标签)的可用性,从而监视节点的可用性。从 HACMP V5.1 开始,心跳检测完全基于 RSCT 拓扑服务(因而 HACMP V5.1 只是E -
IBM认证知识:HACMP网络安全规划
规划网络安全性对于避免集群节点上未经授权的访问也是非常重要的。从 HACMP V5.1 开始,通过为节点之间所有与 HACMP 配置相关的通信提供公共通信基础设施(守护进程),从而引入了一种新的安全机制。新的集群通信守护进程 -
HACMP认证知识:资源组类型
级联资源组级联资源组定义了可控制该资源组的所有节点的列表,以及每个节点在接管该资源组方面的优先级。级联资源组的行为如下:在集群启动时,在缺省情况下,级联资源组在其主节点(在该节点组中具有最高优先级的节点)上 -
HACMP认证知识:资源组规划
资源组是一个逻辑实体,其中包含 HACMP 要使其高度可用的资源。资源可以是:存储空间(应用程序代码和数据)文件系统网络文件系统原始逻辑卷原始物理磁盘服务 IP 地址/标签(由客户端用于访问应用程序数据)应用程序服务器应 -
HACMP认证知识:灾难恢复计划
从 HACMP V5.1 开始,HAGEO 和 GeoRM 已作为 IBM HACMP/XD(扩展距离)功能集成到 HACMP 中。HAGEO 软件产品提供了一个用于构建容灾计算环境的灵活、可靠的平台。HAGEO 组件可以通过 TCP/IP 点对点网络在无限距离的地理