zwz99999
作者zwz99999·2020-04-02 14:23
系统工程师·dcits

powerha6.1 双机互备实施工艺指导

字数 7120阅读 2282评论 0赞 4

XX 行 powerha6.1 双机互备实施工艺指导

( V1.0 )


1 说明

1.1 文档说明

本文的环境是在 AIX6.1 操作系统下安装配置 powerha6.1 的步骤,其它版本的系统安装配置基本类似,不同之处,请参考 IBM 的官方文档。文档链接地址

IBM Systems Information Centers : http://publib.boulder.ibm.com/eserver/ 目录分 aix 、软件、等文档目录。

1.2 注意事项

配置 hacmp 的一些注意事项:

1 、 安装的版本要符合要求

2 、 安装前要做好规划,了解应用要实现什么样的高可靠性需求

3 、 HA 可以实现排除单点故障,但不是冗余,因此关键部件还要有冗余配置,如电源模块、双 HBA 卡、 rootvg 镜像等

4 、 配置为 HA 的主、备节点不能是同一台物理服务器上的两个逻辑分区

5 、 存储厂商在 HA 环境下有定制的磁盘解锁脚本, EMC 、 HDS 存储,在 ha 的 event 事件中增加厂商自定义脚本。

6 、 编写的应用启停脚本要事先手工执行测试,并且确保停止脚本在系统异常时也可以停止应用,以释放资源。

7 、 HA 配置完成后,不要将 ha 的服务设置为自启动模式,即 ha 服务的启动,要手工启动

8 、 HA 配置完成后,要模拟各种故障场景,充分测试接管功能是否正常。

2 HACMP 规划

在配置 ha 前先要做好规划工作,规划的内容包括以下几点:

1 、 了解应用要实现什么样的高可靠性

2 、 规划 cluster 拓扑结构

3 、 集群的网络连接

4 、 共享的 DISK 、 LVM

5 、 规划资源组

6 、 集群中节点的用户、组 ID 要一致

3 HACMP 安装前准备

3.1 硬件环境准备

在安装 HA 软件之前,首先连接好系统外接硬件设备

1 、 TCP/IP 网络连接,生产网卡与备份网卡的网线需要连接到不同的网络交换机

2 、 点对点网络心跳线的连接,我们在这里使用磁盘作为心跳

3 、 外接存储设备连接, HBA 卡要连接到不同的 SAN 交换机,并且安装存储厂商的多路径软件,以实现光纤链路的冗余。

3.2 介质准备

介质准备包括 hacmp 基本包的安装介质,补丁包的准备,补丁包可以从 IBM 官方网站下载,链接地址访问 http://www-933.ibm.com/support/fixcentral/

产品选择 Cluster software

继续后,按照提示逐步操作,选择最新的补丁包下载。

4 PowerHA ( HACMP ) 软件安装

IBM 现在将 HACMP 名称更改为 PowerHA

安装软件时需要注意,配置在 Cluster 集群中的每台服务器节点,要求其上安装的操作系统的版本及补丁级别保持一致、 hacmp 软件的版本及补丁级别保持一致。

4.1 安装 powerha6.1 需要的操作系统软件包

4.2 更新操作系统

AIX 操作系统及其上的软件按照数据中心的版本策略要求将版本更新到相应的级别。使用下面的命令 check

oslevel –s

lppchk –v

4.3 hacmp 软件安装

安装 hacmp 软件前,确保 /usr 、 / 根文件系统目录有足够的 Free 空间,要求 Free 空间大于 500MB

将 powerha6.1 的光盘介质放入光驱,

smit install

选择软件包,不用选择 cluster.es.plugins 、 cluster.es.worksheets 、 cluster.doc.en_US.es 、 cluster.hativoli 、 cluster.haview 软件包

4.4 升级 hacmp 软件

4.4.1 下载 ha 补丁

http://www-933.ibm.com/support/fixcentral/

选择 Cluster software

继续后选择 PowerHA ,选择最新的补丁 Latest service pack ,

4.4.2 升级 hacmp 补丁包

本文示例是将 PowerHA6.1 升级到 powerhasp5 的补丁级别。

smit update_all 方式安装补丁

安装完成后利用 lslpp – l |grep cluster.es.server.rte 查看补丁是否已升级成功,升级后重新引导操作系统,使升级生效。

5 配置 hacmp

主机 ip 地址规划

主机地址分配
序号设备应用永久ip漂移地址物理地址
AP750核心 pjbank1118.0.0.211118.0.0.203 116.0.0.203117.10.0.203
117.10.1.203
BP750数整平台 pjbank2118.0.0.212118.0.0.202 116.0.0.202117.10.0.202
117.10.1.202
CP750ESB pjbank3118.0.0.213118.0.0.201 116.0.0.201117.10.0.201
117.10.1.201
DP750web柜面 pjbank4118.0.0.214118.0.0.200 116.0.0.200117.10.0.200
117.10.1.200
EP740信贷系统(报表) pjbank5118.0.0.215118.0.0.204117.10.0.204
117.10.1.204
FP740信贷weblogic(征信) pjbank6118.0.0.216118.0.0.205117.10.0.205
117.10.1.205

其中 pjbank1 、 pjbank2 互备, pibank3 、 pjbank4 互备, pjbank5 、 pjbank6 互备。本文档以配置节点 pjbank1 、 pjbank2 双机互备为例。

5.1 设置 IP 地址

1 、为每台主机配置 ip

smit mktcpip

2 、 编辑 /etc/hosts 文件,这里以两台服务器为例,主机名分别为 pjbank1 、 pjbank2 ( 两台机器要一致 )

3 、设置双机信任关系 ( 两台机器要一致 )

编辑 /.rhosts

5.2 配置共享磁盘卷组 VG

注意,创建卷组时需要手工指定卷组的 Major Number 号,以免在两台服务器之间发生冲突,使用 B 或 S 参数设置卷组的类型。

1 、 pjbank1 节点上执行

在 pjbank1 服务器上创建 bank1apvg 卷组和 bank1datavg

mkvg –B –V 65 –s 512 –y bank1apvg hdisk1 hdisk2

mkvg –B –V 66 –s 512 –y bank1datavg hdisk3 hdisk4 hdisk5 hdisk6 hdisk7

chvg – an bank1apvg ( 卷组去掉自动激活选项 )

chvg –an bank1datavg

varyoffvg 去激活卷组

2 、 pibank2 节点上执行,导入卷组

importvg –V 65 –y bank1apvg hdisk1 hdisk2

chvg –an bank1apvg

varyoffvg bank1apvg

同样方法导入另一个卷组 bank1datavg 。

同样在 pjbank2 节点创建卷组 bank2apvg 和 bank2datavg ,在节点 pjbank1 导入卷组。

5.3 创建集群 Cluster

配置 HA 过程中均使用 Extended Configuration 菜单选项,只需要在一个节点上执行配置操作,配置完成后,只需同步配置到其它节点

smit hacmp

增加一个集群,注意集群名字的命名规则

5.4 添加 Node 节点

添加节点,节点的名称要与主机名一致,使用下面的方法,分别添加 pjbank1 、 pjbank2 两个节点。

再添加另外一个节点 pjbank2

5.5 创建以太网络,添加 ether 网络通讯接口

5.5.1 添加以太网络

选择 ether

回车即可!

5.5.2 添加 Communication Interfaces

向 ether 网络中添加预定义的通讯接口

同理添加 pjbank2 的通讯网络

5.6 添加机器的永久 IP

添加节点 pjbank1 的永久 IP, 同样添加 pjbank2 的永久 ip

配置永久的 IP 标识( persistent IP label )

1 、一个永久的 IP 标识( persistent IP label )是一个 IP 别名,它可以被分配给一个群集网络中的指定的节点,并且会一直固定在分配的节点上。

2 、永久的 IP 标识( persistent IP label )的特性:

( 1 )一直固定在被分配的节点上(节点绑定)

( 2 )作为别名被配置在启动网卡( boot adapter )上

( 3 )与已经被配置的服务 IP 标识( service IP label )或启动 IP 标识( boot IP label )共同存在

( 4 )不需要在节点上安装额外的物理网卡

( 5 )不属于任何资源组

( 6 )可以被用于在群集中访问指定的节点进行管理工作

( 7 )在节点启动后即可用,当 HACMP 服务停止后也始终保持可用

( 8 )在以太网、令牌环网、 FDDI 以及 ATM LANE 网络中都可被配置

( 9 )不能在 SP 交换机、 ATM 传统 IP 网和串行网络上进行配置

( 10 )和配置的服务 IP 标识( service IP label )和启动 IP 标识( boot IP label )使用同一块网卡

( 11 )如果节点失败,该 IP 标识不会迁移到群集中的其它节点

( 12 )如果网卡失败,它只会迁移到相同网络的同一个节点上的其它网卡

( 13 )每个网络的每个节点上只能配置一个永久的 IP 标识( persistent IP label )

  1. 子网的要求

( 1 )对于使用传统的 IPAT 的网络(不使用别名)

a. 必须被配置为和网络中该节点上的所有 standby IP 标识在不同的子网

b. 可以被配置为和网络中该节点上的 service IP 标识和 boot IP 标识在相同的子网或者是不同的子网

( 2 )对于使用别名的 IPAT 的网络

a. 必须被配置为和网络中该节点上的所有 boot IP 标识在不同的子网

b. 可以被配置为和网络中该节点上的作为 boot 网卡别名的 service IP 标识在相同的子网或者是不同的子网

5.7 配置 Application Server

填写应用服务器名称, start 脚本、 stop 脚本路径,如下图

5.8 添加 Service IP Label

按回车即可,用同样的方法添加 bank2_serip

5.9 配置资源组

5.9.1 添加资源组

smit hacmp ,选择扩展的资源组配置

创建一个 share1vg 资源组,节点选择 pjbank1 pjbank2 ,优先级按先后顺序排列, pjbank1 节点优先级高。由于本例为主备关系,因此下面资源组策略的三个选项按照默认值,不做修改。按此方法添加其他资源组。

5.9.2 资源组策略含义

1 、 Startup Policy 启动策略

1) Online on Home Node Only

资源组只是在优先级高的节点上激活(以前的 cascading )

2) Online on First Available Node

资源组会在任何一个先启动的节点上激活

3) Online on All Available Nodes

资源组在所有节点上激活(适用于 rac 环境)

4) Online Using Distribution Policy

One resource group per network or node depending on the distribution policy

2 、 Fallover Policy 切换策略

Fallover 是指当资源组所在的服务器发生故障时,资源组将要发生的动作。

1) Fallover to Next Priority Node

资源组转移到下一个优先级高的节点

2) Fallover using Dynamic Node Priority

Resource group is moved to the next node in the resource group's node list as

recalculated based on the dynamic node criteria policy

3) Bring Offline on Error Node

在故障节点的资源组 offline ,不发生切换动作。 ( 适用于 RAC 环境 )

3 、 Fallback Policy 回切策略

Fallback 是指当故障服务器修复后,节点重新加入集群中时资源组将发生什么样的动作。

1) Fallback to a Higher Priority Node

资源组回切到高优先级的节电上

2) Never Fallback

资源组不回切

5.9.3 定义资源组属性

向 share1vg 资源组中增加属性信息,增加 service ip 地址、 application server 、共享卷组信息

5.10 添加磁盘心跳网络

5.10.1 添加磁盘心跳设备

选择 diskhb 即可

5.10.2 添加磁盘心跳通讯

这里主要指明磁盘心跳是那块硬盘、属于那个节点即可。同样方法添加 pjbank2 节点的磁盘心跳设备

配置 HACMP 磁盘心跳

首先我们要一个 Enhanced concurrent VG , 这个 vg 不需要一定是放在 concurrent 资源组里的 vg , 当然也可以用 concurrent 资源组里的硬盘来做心跳网络。这个 concurrent vg 可以通过传统方法建立, HACMP 两个节点的名称分别为 pjbank1 和 pjbank2 ,两节点共享盘分别是 hdisk4 ,用传统方法建立并发卷组 hdvg 在 hdisk4 上,在 pjbank1 节点上 varyoffvg , 另 pjbank2 节点上 importvg 。

5.11 查看同步资源组

5.11.1 查看 hacmp 的配置信息

查看 pjbank1 的 hacmp 的配置信息

5.11.2 同步 hacmp 到另外一个节点 pjbank2 上

在 pjbank1 上的各项配置完成后,需要同步配置到 pjbank2 服务器上,

smit hacmp

然后回车即可

6 HA 服务启停、监控

6.1 启动 ha 服务

smit clstart

如需两个节点同时启动,只需把两个节点都选中即可!

并将 更改为 true ,回车等待双机启动,启动时间一般和资源组、应用的启动脚本有关,时间大约 3-5 分钟, sap 一般要 8-10 分钟

1 、查看 cluster 进程

hacmp 启动后, 一般会有 2 个进程: clstrmgrES 、 clinfoES ,并且显示为 active 状态

2 、查看 ip 地址是否启动

3 、本机的资源卷组

均已激活

4 、另一个节点的资源组

也已经激活

5 、查看群集状态

cd /usr/es/sbin/cluster

./clstat –a

网卡状态都是 UP ,资源组 online

6.2 停止 ha 服务

smit clstop

两个节点同时停止 ha 服务

注:有三种停止方式:

Bring Resource Group Offine :只停止本节点上 HACMP 的运行,并释放由本节点管理的资源,但允许其它节点接管。

Move Resource Groups :停止本节点上 HACMP 的运行,释放资源,让其他节点接管。

Unmanage Resource Groups :停止本节点上 HACMP 的运行,但不释放资源

7 ha 切换测试

7.1 手工停 ha 服务切换测试

smit clstop

然后回车,看资源组、服务 ip 等是否切到节点 pjbank2

7.2 不停 ha 服务,在线移动资源组( C-SPOC )

选择要移动的资源组

选择目标节点

选择回车即可,就将资源组 share1vg 切换到节点 pjbank2

7.3 模拟网卡故障测试

测试步骤包括, pjbank1 节点上操作:

1 、 模拟主网卡故障,将主网卡的网线拔掉 service ip 会漂移到本节点的 standby 网卡上

2 、 插上故障网卡的网线,不会发生切换动作, ha 会报一个网卡 up 信息

3 、 将备份网卡上的网线拔掉, service ip 会漂移回到主网卡上

4 、 再拔掉主网卡上的网线,此时 pjbank1 上的主备网线均拔掉,资源组会切换到备机 pjbank2 节点上,并且 ip 地址漂移到 pjbank2 的网卡上

7.4 模拟服务器异常 down 机测试

模拟 pjbank1 down 机测试,在 pjbank1 节点上执行

halt –q

pjbank1 会立即 down 机,资源组应该切换到备份节点 pjbank2 服务器上。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

4

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广