、
IBM HACMP for AIX 5L
测试报告
** 目录
随着 UNIX 系统的发展和普及,关键性任务对主机的依赖程度也在逐渐减弱,越来越多的企业将他们的关键性任务应用从专有的主机系统迁移至基于 UNIX 平台上来。 IBM 公司的 HAMCP for AIX 软件是业界领先的,建立在 UNIX 平台上关键性任务计算环境的工具软件。 HACMP for AIX 软件能够保证关键性资源的高可用性。
本次测试是为了检验 IBM HACMP for AIX 软件保证资源高可用性的表现,本次试验运行的应用为 具体的验证目标如下:
1 本次测试主要模拟以下故障:
Ø 正常时,应用的切换
Ø 服务器硬件故障时的切换
Ø 网络故障里的切换
2 考察在出现以上故障时, HACMP 软件能否正常切换应用以及切换的效率。
本次测试环境为两台 IBM P570 服务器和一台 IBM DS4500 存储。两台服务器每台分别划分 4 个 lpar ,两两双机,共 3 套 HA, 通过光纤交换机连接到 DS4500 上。服务器上安装 AIX5.3 操作系统和 HACMP5.4 软件,两台服务器安装的系统版本跟 HACMP 版本一致。 采用的是磁盘心跳。
每套 HA 双机的连接拓扑图如下 En2 En2
En0 En0
主机名 | 网络配制 | 操作系统 | 应用软件 |
Gdprd1 | boot1 ip: 192.168.1.10 boot2 ip: 192.168.2.10 server ip: 10.58.66.22 per ip:10.58.66.23 | AIX 5.3 ML10 | HACMP 5.4 |
Gdprd1 | boot1 ip: 192.168.1.20 boot2 ip: 192.168.2.20 server ip: 10.58.66.25 per ip:10.58.66.24 | AIX 5.3 ML10 | HACMP 5.4 |
主机名 | 网络配制 | 操作系统 | 应用软件 |
Bwprd1 | boot1 ip: 192.168.1.11 boot2 ip: 192.168.2.11 server ip: 10.58.66.26 per ip:10.58.66.27 | AIX 5.3 ML10 | HACMP 5.4 |
Bwprd2 | boot1 ip: 192.168.1.21 boot2 ip: 192.168.2.21 server ip: 10.58.66.29 per ip:10.58.66.28 | AIX 5.3 ML10 | HACMP 5.4 |
主机名 | 网络配制 | 操作系统 | 应用软件 |
Piprd1 | boot1 ip: 192.168.1.12 boot2 ip: 192.168.2.12 server ip: 10.58.66.32 per ip:10.58.66.33 | AIX 5.3 ML10 | HACMP 5.4 |
Piprd2 | boot1 ip: 192.168.1.22 boot2 ip: 192.168.2.22 server ip: 10.58.66.35 per ip:10.58.66.34 | AIX 5.3 ML10 | HACMP 5.4 |
本次测试按以下步骤来完成:
Ø 规划好整个测试环境的资源
Ø 安装 AIX5.3 操作系统,安装相应的补丁;
Ø 安装 HACMP5.4 软件跟应用数据库;
Ø 配制 HACMP ;
Ø 设置各种模拟故障来测试 HACMP 的切换与恢复;
资源的规划是 HACMP 配制前要做的一件事,它占据了 HACMP 安装配制一半或一半以上的时间。这步工作是非常重要的。一个好的规划和设计可以避免很多不必要的故障的发生,也有利于综合的管理。 HACMP 的规划主要分为软件的规划、硬件的规划和资源组的规划。
网络规划分为 IP 网络和非 IP 网络,非 IP 网络用来做磁盘心跳,本次测试环境使用的心跳网络使用磁盘心跳。
网络名字 | 网络类型 | 网络地址 | 网络掩码 |
ethernet | Ether | 192.168.1.0 | 255.255.255.0 |
192.168.2.0 | 255.255.255.0 | ||
diskhb | diskhb | N/A | N/A |
节点 1 :
接口名字 | 网卡标识 | 网卡功能 | IP地址 | 网络类型 | 网络名字 |
En0 | hostname_boot1 | Boot | 192.168.1.0/24 | ether | ethernet |
En2 | hostname_boot2 | Standby | 192.168.2.0/24 | ether | ethernet |
N/A | Perip | perip | 10.58.66.0/24 | ether | ethernet |
N/A | serip | Service | 10.58.66.0/24 | ether | ethernet |
节点 2 :
接口名字 | 网卡标识 | 网卡功能 | IP地址 | 网络类型 | 网络名字 |
En0 | hostname_boot1 | Boot | 192.168.1.0/24 | ether | ethernet |
En2 | hostname_boot2 | Standby | 192.168.2.0/24 | ether | ethernet |
N/A | Perip | perip | 10.58.66.0/24 | ether | ethernet |
N/A | serip | Service | 10.58.66.0/24 | ether | ethernet |
本次测试环境在光纤存储 DS4500 上共划分两个分区,在服务器上把这两个分区创建为卷组,其中一个卷组用来安装 oracle 数据库,一个卷组装另外一个应用,最后一个卷组用来做磁盘心跳,并注意做磁盘心跳的卷组一定要设置成并发卷组。
卷组名 | 属性 | 大小 | 应用 |
Oravg | Original | 应用1 | |
Prdvg(bwpvg,pipvg) | Original | 应用2 | |
hdvg | concurrent | 10G | 做磁盘心跳 |
操作系统安装 AIX5.3ML10 ,注意两台服务器的系统版本号和补丁包要完全一致,以使测试更加准确合理。
HACMP 的版本也要求两台服务器要一致,配制过程中要注意的就是需要准备应用的启动与关闭脚本,双机环境至少需要一种心跳方式并且最好不要是网络心跳。安装配制的详细步骤请参考另一文档《 HACMP5.4 for AIX 安装和配制》。
监视群集状态:
可以使用 /usr/sbin/cluster/clstat 来监视群集的状态。 Clstat 是监视单个或多个群集的工具,它依赖于 clinfo 进程。启动该进程可以监视以下状态:
Ø 群集的名称和 ID
Ø 当前的时间和日期
Ø 群集的状态
Ø 每个节点的状态
Ø 每个网卡的 IP 标识和地址
Ø 网卡的状态
监视群集日志 :
Cluster Manager 的活动被记录在几个日志中,大多数可以用 SMIT 查看。以下是关于群集的日志:
/usr/adm/cluster.log 主要是群集事件和错误的高层视图,可以很容易看出事件的发生顺序。此文件须定期清理。
/tmp/hacmp.out[1-7] 记录事件脚本的详细输出,只保留七天的信息。此文件中也有可能包含应用程序的输出信息。
/usr/sbin/cluster/history/cluster.mmdd 是群集的长期历史视图。
错误日志( error log ) :
记录 Cluster Manager 状态变化的信息,包括启动和停止。
HACMP 将侦测并响应三种类型的故障: 1 网卡故障, 2 网络故障, 3 节点故障。下面我们就对这几种故障进行测试,具体测试情况和结果如下:
测试实例 1 :启动双机服务
测试说明 | 启动两台服务器的hacmp服务 |
测试步骤 | 1、两台服务器正常启动,hacmp服务没有启动 2、使用smit clstart命令启动两台机的hacmp服务。 |
停止时间 | |
预期结果 | Hacmp服务启动后,应用也启动。 |
实际结果 |
测试实例 2 :停止双机服务
测试说明 | 停止两台服务器的hacmp服务 |
测试步骤 | 1、两台服务器正常启动,hacmp服务和 应用正常启动 2、使用smit clstop命令停止两台机的hacmp服务。 |
停止时间 | |
预期结果 | 应用被停止。 |
实际结果 |
测试实例 3 :单机停 hacmp 服务,资源切换测试
测试说明 | 运行应用的服务器 |
测试步骤 | 1、两台服务器和应用正常启动,应用1运行在host1服务器上 2、使用smit clstop命令将应用1资源切换到host2服务器上 |
停止时间 | |
预期结果 | 资源发生切换 |
实际结果 |
测试实例 4 :单机启动 hacmp 服务,资源回切测试
测试说明 | 应用切换主节点 |
测试步骤 | 1、两台服务器正常启动,应用1和应用2都运行在host2服务器上 2、使用smit clstart 启动host1服务,资源回切到主节点 |
停止时间 | |
预期结果 | 资源切到主节点 |
实际结果 |
测试实例 5 :网卡故障
测试说明 | 断开机器两个网卡的网线 |
测试步骤 | 1、两台服务器正常启动,hacmp服务和应用正常启动,应用1在host1上,应用2在host2上 2、拔掉host1启动网卡的网线 |
停止时间 | |
预期结果 | IP切换到另外一个网卡上 |
实际结果 |
测试实例 6 :网络故障
测试说明 | 断开机器网卡的网线 |
测试步骤 | 1、两台服务器正常启动,hacmp服务和应用正常启动,应用1在host1上,应用2在host2上 2、拔掉host1上两块网卡的网线,资源切换到host2 |
停止时间 | |
预期结果 | 应用1切到host2服务器 |
实际结果 |
测试实例 7 :节点故障
测试说明 | Halt –q一台主机 |
测试步骤 | 1、两台服务器正常启动,hacmp服务和 应用正常启动 2、host1执行halt –q,资源发生切换 |
停止时间 | |
预期结果 | 资源发生切换 |
实际结果 |
通过上面的测试我们可以发现在各种故障的发生后 HACMP 都能够比较快速的切换应用,保证了应
用的可用性。
测试步骤 | 结果 | 切换时间 |
故障实例1 | ||
故障实例2 | ||
故障实例3 | ||
故障实例4 | ||
故障实例5 | ||
故障实例6 | ||
故障实例7 |
AIX 作为一个成熟的操作系统,具有很多先进的特征,在系统的稳定性和可靠性有很大的优点,能够承担关键的任务。 HACMP 与 AIX 的许多功能紧密结合,为用户提供更高的可用性。本次测试以 IBM 的 p5 570 服务器为平台来测试 HACMP 对应用高可靠性的保护。从测试结果中可以看到,对于各种常见的故障如应用故障、网络故障和存储故障 HACMP 都能够起到对应用的有效的保护,从而提高了关键应用的可靠性和安全性。
对于存储的故障可以通过编写 events 来监控切换,但一般建议在主机上采用两块以上的光纤存储连接卡,分别来连到不同的光纤连接线和不同的磁盘控制阵列控制器来实现对应用的保护。这样无论是硬盘还是光纤连接线的坏掉,所有好的数据还是可以被主机访问 。
Ø 测试时间:
Ø 测试地点:
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞2
添加新评论1 条评论
2020-05-25 22:11