( V1.0 )
本文的环境是在 AIX6.1 操作系统下安装配置 powerha6.1 的步骤,其它版本的系统安装配置基本类似,不同之处,请参考 IBM 的官方文档。文档链接地址
IBM Systems Information Centers : http://publib.boulder.ibm.com/eserver/ 目录分 aix 、软件、等文档目录。
配置 hacmp 的一些注意事项:
1 、 安装的版本要符合要求
2 、 安装前要做好规划,了解应用要实现什么样的高可靠性需求
3 、 HA 可以实现排除单点故障,但不是冗余,因此关键部件还要有冗余配置,如电源模块、双 HBA 卡、 rootvg 镜像等
4 、 配置为 HA 的主、备节点不能是同一台物理服务器上的两个逻辑分区
5 、 存储厂商在 HA 环境下有定制的磁盘解锁脚本, EMC 、 HDS 存储,在 ha 的 event 事件中增加厂商自定义脚本。
6 、 编写的应用启停脚本要事先手工执行测试,并且确保停止脚本在系统异常时也可以停止应用,以释放资源。
7 、 HA 配置完成后,不要将 ha 的服务设置为自启动模式,即 ha 服务的启动,要手工启动
8 、 HA 配置完成后,要模拟各种故障场景,充分测试接管功能是否正常。
在配置 ha 前先要做好规划工作,规划的内容包括以下几点:
1 、 了解应用要实现什么样的高可靠性
2 、 规划 cluster 拓扑结构
3 、 集群的网络连接
4 、 共享的 DISK 、 LVM
5 、 规划资源组
6 、 集群中节点的用户、组 ID 要一致
在安装 HA 软件之前,首先连接好系统外接硬件设备
1 、 TCP/IP 网络连接,生产网卡与备份网卡的网线需要连接到不同的网络交换机
2 、 点对点网络心跳线的连接,我们在这里使用磁盘作为心跳
3 、 外接存储设备连接, HBA 卡要连接到不同的 SAN 交换机,并且安装存储厂商的多路径软件,以实现光纤链路的冗余。
介质准备包括 hacmp 基本包的安装介质,补丁包的准备,补丁包可以从 IBM 官方网站下载,链接地址访问 http://www-933.ibm.com/support/fixcentral/
产品选择 Cluster software
继续后,按照提示逐步操作,选择最新的补丁包下载。
IBM 现在将 HACMP 名称更改为 PowerHA
安装软件时需要注意,配置在 Cluster 集群中的每台服务器节点,要求其上安装的操作系统的版本及补丁级别保持一致、 hacmp 软件的版本及补丁级别保持一致。
AIX 操作系统及其上的软件按照数据中心的版本策略要求将版本更新到相应的级别。使用下面的命令 check
安装 hacmp 软件前,确保 /usr 、 / 根文件系统目录有足够的 Free 空间,要求 Free 空间大于 500MB
将 powerha6.1 的光盘介质放入光驱,
选择软件包,不用选择 cluster.es.plugins 、 cluster.es.worksheets 、 cluster.doc.en_US.es 、 cluster.hativoli 、 cluster.haview 软件包
从 http://www-933.ibm.com/support/fixcentral/
选择 Cluster software
继续后选择 PowerHA ,选择最新的补丁 Latest service pack ,
本文示例是将 PowerHA6.1 升级到 powerhasp5 的补丁级别。
安装完成后利用 lslpp – l |grep cluster.es.server.rte 查看补丁是否已升级成功,升级后重新引导操作系统,使升级生效。
主机 ip 地址规划
主机地址分配 | |||||
序号 | 设备 | 应用 | 永久ip | 漂移地址 | 物理地址 |
A | P750 | 核心 pjbank1 | 118.0.0.211 | 118.0.0.203 116.0.0.203 | 117.10.0.203 |
117.10.1.203 | |||||
B | P750 | 数整平台 pjbank2 | 118.0.0.212 | 118.0.0.202 116.0.0.202 | 117.10.0.202 |
117.10.1.202 | |||||
C | P750 | ESB pjbank3 | 118.0.0.213 | 118.0.0.201 116.0.0.201 | 117.10.0.201 |
117.10.1.201 | |||||
D | P750 | web柜面 pjbank4 | 118.0.0.214 | 118.0.0.200 116.0.0.200 | 117.10.0.200 |
117.10.1.200 | |||||
E | P740 | 信贷系统(报表) pjbank5 | 118.0.0.215 | 118.0.0.204 | 117.10.0.204 |
117.10.1.204 | |||||
F | P740 | 信贷weblogic(征信) pjbank6 | 118.0.0.216 | 118.0.0.205 | 117.10.0.205 |
117.10.1.205 |
其中 pjbank1 、 pjbank2 互备, pibank3 、 pjbank4 互备, pjbank5 、 pjbank6 互备。本文档以配置节点 pjbank1 、 pjbank2 双机互备为例。
1 、为每台主机配置 ip
2 、 编辑 /etc/hosts 文件,这里以两台服务器为例,主机名分别为 pjbank1 、 pjbank2 ( 两台机器要一致 )
3 、设置双机信任关系 ( 两台机器要一致 )
编辑 /.rhosts
注意,创建卷组时需要手工指定卷组的 Major Number 号,以免在两台服务器之间发生冲突,使用 B 或 S 参数设置卷组的类型。
1 、 pjbank1 节点上执行
在 pjbank1 服务器上创建 bank1apvg 卷组和 bank1datavg
2 、 pibank2 节点上执行,导入卷组
同样方法导入另一个卷组 bank1datavg 。
同样在 pjbank2 节点创建卷组 bank2apvg 和 bank2datavg ,在节点 pjbank1 导入卷组。
配置 HA 过程中均使用 Extended Configuration 菜单选项,只需要在一个节点上执行配置操作,配置完成后,只需同步配置到其它节点
增加一个集群,注意集群名字的命名规则
添加节点,节点的名称要与主机名一致,使用下面的方法,分别添加 pjbank1 、 pjbank2 两个节点。
再添加另外一个节点 pjbank2
选择 ether
回车即可!
向 ether 网络中添加预定义的通讯接口
同理添加 pjbank2 的通讯网络
添加节点 pjbank1 的永久 IP, 同样添加 pjbank2 的永久 ip
配置永久的 IP 标识( persistent IP label )
1 、一个永久的 IP 标识( persistent IP label )是一个 IP 别名,它可以被分配给一个群集网络中的指定的节点,并且会一直固定在分配的节点上。
2 、永久的 IP 标识( persistent IP label )的特性:
( 1 )一直固定在被分配的节点上(节点绑定)
( 2 )作为别名被配置在启动网卡( boot adapter )上
( 3 )与已经被配置的服务 IP 标识( service IP label )或启动 IP 标识( boot IP label )共同存在
( 4 )不需要在节点上安装额外的物理网卡
( 5 )不属于任何资源组
( 6 )可以被用于在群集中访问指定的节点进行管理工作
( 7 )在节点启动后即可用,当 HACMP 服务停止后也始终保持可用
( 8 )在以太网、令牌环网、 FDDI 以及 ATM LANE 网络中都可被配置
( 9 )不能在 SP 交换机、 ATM 传统 IP 网和串行网络上进行配置
( 10 )和配置的服务 IP 标识( service IP label )和启动 IP 标识( boot IP label )使用同一块网卡
( 11 )如果节点失败,该 IP 标识不会迁移到群集中的其它节点
( 12 )如果网卡失败,它只会迁移到相同网络的同一个节点上的其它网卡
( 13 )每个网络的每个节点上只能配置一个永久的 IP 标识( persistent IP label )
( 1 )对于使用传统的 IPAT 的网络(不使用别名)
a. 必须被配置为和网络中该节点上的所有 standby IP 标识在不同的子网
b. 可以被配置为和网络中该节点上的 service IP 标识和 boot IP 标识在相同的子网或者是不同的子网
( 2 )对于使用别名的 IPAT 的网络
a. 必须被配置为和网络中该节点上的所有 boot IP 标识在不同的子网
b. 可以被配置为和网络中该节点上的作为 boot 网卡别名的 service IP 标识在相同的子网或者是不同的子网
填写应用服务器名称, start 脚本、 stop 脚本路径,如下图
按回车即可,用同样的方法添加 bank2_serip
创建一个 share1vg 资源组,节点选择 pjbank1 pjbank2 ,优先级按先后顺序排列, pjbank1 节点优先级高。由于本例为主备关系,因此下面资源组策略的三个选项按照默认值,不做修改。按此方法添加其他资源组。
1 、 Startup Policy 启动策略
1) Online on Home Node Only
资源组只是在优先级高的节点上激活(以前的 cascading )
2) Online on First Available Node
资源组会在任何一个先启动的节点上激活
3) Online on All Available Nodes
资源组在所有节点上激活(适用于 rac 环境)
4) Online Using Distribution Policy
One resource group per network or node depending on the distribution policy
2 、 Fallover Policy 切换策略
Fallover 是指当资源组所在的服务器发生故障时,资源组将要发生的动作。
1) Fallover to Next Priority Node
资源组转移到下一个优先级高的节点
2) Fallover using Dynamic Node Priority
Resource group is moved to the next node in the resource group's node list as
recalculated based on the dynamic node criteria policy
3) Bring Offline on Error Node
在故障节点的资源组 offline ,不发生切换动作。 ( 适用于 RAC 环境 )
3 、 Fallback Policy 回切策略
Fallback 是指当故障服务器修复后,节点重新加入集群中时资源组将发生什么样的动作。
1) Fallback to a Higher Priority Node
资源组回切到高优先级的节电上
2) Never Fallback
资源组不回切
向 share1vg 资源组中增加属性信息,增加 service ip 地址、 application server 、共享卷组信息
选择 diskhb 即可
这里主要指明磁盘心跳是那块硬盘、属于那个节点即可。同样方法添加 pjbank2 节点的磁盘心跳设备
配置 HACMP 磁盘心跳
首先我们要一个 Enhanced concurrent VG , 这个 vg 不需要一定是放在 concurrent 资源组里的 vg , 当然也可以用 concurrent 资源组里的硬盘来做心跳网络。这个 concurrent vg 可以通过传统方法建立, HACMP 两个节点的名称分别为 pjbank1 和 pjbank2 ,两节点共享盘分别是 hdisk4 ,用传统方法建立并发卷组 hdvg 在 hdisk4 上,在 pjbank1 节点上 varyoffvg , 另 pjbank2 节点上 importvg 。
查看 pjbank1 的 hacmp 的配置信息
在 pjbank1 上的各项配置完成后,需要同步配置到 pjbank2 服务器上,
然后回车即可
如需两个节点同时启动,只需把两个节点都选中即可!
并将 更改为 true ,回车等待双机启动,启动时间一般和资源组、应用的启动脚本有关,时间大约 3-5 分钟, sap 一般要 8-10 分钟
1 、查看 cluster 进程
hacmp 启动后, 一般会有 2 个进程: clstrmgrES 、 clinfoES ,并且显示为 active 状态
2 、查看 ip 地址是否启动
3 、本机的资源卷组
均已激活
4 、另一个节点的资源组
也已经激活
5 、查看群集状态
网卡状态都是 UP ,资源组 online
两个节点同时停止 ha 服务
注:有三种停止方式:
Bring Resource Group Offine :只停止本节点上 HACMP 的运行,并释放由本节点管理的资源,但允许其它节点接管。
Move Resource Groups :停止本节点上 HACMP 的运行,释放资源,让其他节点接管。
Unmanage Resource Groups :停止本节点上 HACMP 的运行,但不释放资源
然后回车,看资源组、服务 ip 等是否切到节点 pjbank2
选择要移动的资源组
选择目标节点
选择回车即可,就将资源组 share1vg 切换到节点 pjbank2
测试步骤包括, pjbank1 节点上操作:
1 、 模拟主网卡故障,将主网卡的网线拔掉 service ip 会漂移到本节点的 standby 网卡上
2 、 插上故障网卡的网线,不会发生切换动作, ha 会报一个网卡 up 信息
3 、 将备份网卡上的网线拔掉, service ip 会漂移回到主网卡上
4 、 再拔掉主网卡上的网线,此时 pjbank1 上的主备网线均拔掉,资源组会切换到备机 pjbank2 节点上,并且 ip 地址漂移到 pjbank2 的网卡上
模拟 pjbank1 down 机测试,在 pjbank1 节点上执行
pjbank1 会立即 down 机,资源组应该切换到备份节点 pjbank2 服务器上。
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞4
添加新评论0 条评论