zhaobingchao
作者zhaobingchao·2020-08-05 15:48
AIX技术支持·IPS

PowerHA 7.2实施与交付指导

字数 4150阅读 5467评论 0赞 1

1. 前言

众所周知 PowerHA 不单单是一个软件它还是一套成熟的解决方案,它的技术可提供高可用性、业务连续性和灾难恢复能力。成为了基于 AIX/Power 平台上主要的高可用解决方案,一直以来为重要的生产环境保驾护航,因此被广泛使用,并作为 AIX/Power 系统工程师 PowerHA 的交付实施是一门必修课。目前最新 PowerHA 版本是 7.2 ,如果需要进一步了解相关的知识,请访问 IBM 的 KnowledgeCenter :

https://www.ibm.com/support/knowledgecenter/SSPHQG_7.2/navigation/welcome.html

2.PowerHA 的基本概念

一套配置完成的 PowerHA cluster 是由两部分组成的,即拓扑( topology )和 logical ( Resources&ResourceGroup )。

n Topology部分涉及到了如下的组件:

− NODE ,可以是一个非虚拟化环境中的 LPAR 或是一个 PowerVM 虚拟化环境中的 VIOC 分区;

− Network, 又分为 IP 网络和 Non-IP 网络;

² IP 网络主要的作用是:对外提供 APP/DB 的服务访问、节点的心跳的通讯用于监控与判断拓扑组件的状态和故障、节点系统的管理;

² Non-IP 网络目前主要作用是避免 Cluster 发生脑裂,主要由两种方式实现心跳的通讯: CAA 共享磁盘(必选)和 SAN FiberChannel (可选);

n Resources&ResourceGroup部分主要涉及到了如下的定义:

− ServiceIP ,一种资源的定义,部署在本系统上的 APP/DB 用于对外提供服务的 IP 地址;

− ApplicationController ,一种资源的定义,包含了 APP/DB 的启停脚本,当该资源被激活时运行启动脚本相反该资源被关闭时将运行其定义的停止脚本;

− Sharevg ,一种资源需要被 Cluster 的所有节点识别,随着 RG 的启动在相应的节点上被激活;

− ResourceGroup ( RG ),资源组,通常需要将上述资源定义或打包到一个 RG , HA 以 RG 为单位进行 Online 和 offline 、资源在节点间的 Move 也是以 RG 为控制单位的。

3.PowerHA 的配置交付

结合多年来自身的项目经验, HA 的交付归纳为三个阶段,分别是:规划设计阶段、配置实施阶段、测试验证阶段。

3.1 规划设计阶段需要考虑的点有:

− PowerHA 为谁提供保护?

在本次项目中为 APP 还是 DB 提供了高可用保护。

− 是否部署到 PowerVM/LPAR 环境?

将 HA 的 node 部署到 PowerVM 虚拟化环境,还是非虚拟化的 LPAR 环境中。

− PowerHA 的版本的选择;

这里除了涉及 HA 的版本还需要考虑所宿主的 AIX 版本,大家可以考虑先使用 IBM FLRT 工具找出当前推荐版本然后再结合 APP/DB 对系统版本的要求 / 需求、结合多路径软件的需求等,决策出最终目标的版本(最好经过实际的版本测试验证)。

− 网卡与 IP 地址( BootIP 、 ServiceIP 、 Persistence-IP )、 netmon.cf ;

网卡是否为虚拟网卡、物理网卡、还是 etherchanel ( LACP 、 NIB )。

Netmon.cf 主要是 HA7.1 版本后在配置 HA 时广泛使用的,主要用于:当节点间的 IP 网络心跳中断时, HA 可以通过 Ping 外部 IP 的方式,更有效的进行 network/adapter 故障判断。

− APP/Database 的启停脚本;

HA 所保护的 Application/database 的启动或停止脚本,只不过这部分内容通常不是由 AIX 或 HA 工程师提供的。

− HA 各组件的命名规则( ClusterName 、 Nodename 、 Appserver 、 IP-Lable 、 ResouceGroup 等);

在已满足 AIX/HA 对命名的规定(如:长度、字符等)条件下,需要遵循客户的习惯和要求。

− 是否有其它的特殊要求(事件脚本定制、 APP/DB 的监控等);

− 外部存储(共享盘)与 SAN 交换机的配置要求;

CAA 盘的数量、大小,需要被两个节点所识别;

Sharevg 磁盘的数量、大小,需要被哪些节点所识别;

如果 HBA 卡满足了 SAN 心跳的条件,需要交换端对指定端口进行 ZONE 的配置。

− 输出配置规划表;

将上述信息进行汇总整理成规划表或规划方案。

3.2PowerHA 的配置实施

3.2.1 AIX/PowerHA 软件的安装与升级

安装升级完成后,在两个节点上分别运行 halevel 进行版本的检查,确认满足目标要求;

3.2.2 AIX 系统层的配置与检查

− App/DB 的启停脚本部署与检查;

(确保在两个节点上启停脚本的位置、权限、 ownership 的正确性及一致性)

− Sharevg 中的共享磁盘属性检查 , 建议将 reserve_policy 修改为 no_reserve ;

− Sharevg 卷组属性,确认 auto varyon 是关闭的且卷组类型为 concurrent ;

(运行 smit chvg -> select sharevg )

− Sharevg 与 Filesystems 的创建或导入;

− Sharevg 的其它检查; FS_mount point 、 MajorNum 、权限、 ownership 信息在两个节点上是一致的 ( 卷组本身及其包含的 LV 、 filesystems) ;

− CAA_repository_disk 的识别; (分别在两个节点上运行 cfgmgr 命令,识别该共享盘)

− Etherchanel 网卡的配置( optional );

− 网卡 IP 的配置、 /etc/hosts 、 /etc/cluster/rhosts 、 netmon.cf;

( /etc/hosts 文件内至少要有一个 bootip 使用的是主机名; netmon.cf 文件内可以有多少记录,每记录的格式为: IREQD 源 目标 IP ,即在当前节点内从哪个源端 ping 到哪一个外部 IP ;)

3.2.3PowerHA 的配置

1) Topology 的配置

− Cluster 、 Node 、 IP-network&IP-interface 的定义

(在某一个节点上运行 smit cm_setup_menu ==> Setup a Cluster, Nodes and Networks )

− CAA-Repository disk 的定义;

( smit cm_setup_menu ==>Define Repository Disk and Cluster IP Address )

− Verify&Synchronize ;

(运行 smit cm_cluster_nodes_networks 并选择如下项)

2) Resources&RG 的配置

− ApplicationServer 的定义;

( smit cm_resources_menu ==> 选择 Configure User Applications ==> 选择 Application Controller Scripts==> 选择 Add Application Controller Scripts )

− ServiceIP 的定义;

( smit cm_resources_menu ==> 选择 Configure Service IP Labels/Addresses ==> 选择 Add a Service IP Label/Address )

− RG 的定义;

( smit cm_resource_groups ==> 选择 Add a Resource Group )

− 将 Resources 添加到 RG 里;

( smit cm_resource_groups ==> 选择 Change/Show Resources and Attributes for a Resource Group )

− PesistenceIP 的定义( optional )

( smit cm_manage_nodes ==> 选择 Configure Persistent Node IP Label/Addresses ==> 选择 Add a Persistent Node IP Label/Address==> 选择目标节点)

− Verify&Synchronize ;

3.3 PowerHA 的测试项目:

− HA 服务的启停;

(将两节点的 HA 服务拉起,运行 smit clstart )

服务拉起后,运行 cldump/clRGinfo/lssrc -ls clstrmgrES/ifconfig -a/lsvg -o/lspv 等命令检查 HA 及其资源的状态。

− 节点宕的测试;

( 如:在主节点上或是跑应用数据库的节点上运行 halt -q)

− 手工发起 RG 的移动;

( smit cl_admin ==> Resource Group and Applications ==> Move Resource Groups to Another Node )

− 网卡宕的测试;

− 其它的测试(如:在虚拟化环境中,进行虚拟层中 VIOS 间的切换测试,判断是否会对 HA 节点有所影 响);

注:测试过程要进行记录,完成后最好要形成一个完整的测试报告。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

X社区推广