xuesong
作者xuesong·2021-02-23 14:24
保险行业系统架构师·浪潮商用机器有限公司

某保险公司服务器更新案例(下)-实施经验

字数 3828阅读 4029评论 0赞 0

本文内容为“某保险核心系统服务器资源优化案例(上) - 方案设计”的后续,在前文中已描述了相关项目背景、优化思路和方案设计。最终项目采用了 K1 Power E950 服务器作为老旧设备的替换与整合,并对三中心服务器资源进行了迭代优化。

对于该客户来说,也是第一次使用 K1 Power E950 服务器。相对已有老旧 POWER6/POWER7 ,新的 POWER9 服务器 K1 Power E950 在实施过程中,也有一些硬件的特性和以前老旧 POWER 略微不同。本文把实施过程中,客户在准备和实施中关心的一些不同点进行了整理,同时对实施效果和经验进行总结,希望对类似项目的读者有所帮助。

K1 Power E950 实施

需准备相应规格的电源线

K1 Power E950 小型机的强电电源线和需要替换的 Power 750 有所不同。如下左图所示的 Power 750 后视图, Power 750 配置了两个 1725 watt 电源,从接口上可以看出是需连接 2 根 C13/C14 的 10A 电源线;而新购的 K1 Power E950 如右图所示,配置了四个 2000 watt 电源,从接口上可以看出是需连接 4 根 C19/C20 的 16A 电源线。

由于机房以前的强弱电环境都是按照 POWER7 的要求准备,本次新购 K1 Power E950 并没有配置机柜,而是利旧已有 POWER7 的机柜,因此,需要在实施前额外准备相应的电源线。

对于上述情况,可以有两种解决方案,一是在购置 K1 Power E950 时配置相应的含有 16A C19/C20 接口的机柜 PDU ;二是额外购置 C19/C20 – C13/C14 不同接口的转化电源线,以便连接 K1 Power E950 到 C13/C14 的 PDU 上。

管理控制台 HMC 的选择

如上所述利旧已有的机柜,新购的 K1 Power E950 也同样将利旧已有的 HMC 管理控制台,以降低成本。但由于已有 HMC 设备老旧,这同样面临设备兼容性的问题。

在利旧已有老旧 HMC 时,我们需要从两个方面考虑其兼容性,一是 HMC 的硬件是否支持,而是 HMC 的软件版本是否支持。一个好的方法是通过 Fix Level Recommendation Tool (FLRT) 网站对环境进行检查,示意如下:

首先,可以检查“ POWER Code Matrix - Supported HMC Hardware ”,该网站列出了 POWER 支持的 HMC 的型号。通过这个网站,我们可以大概了解到目前环境的新老各代 POWER 服务器对于 HMC 的支持情况,或已有 HMC 对于各代 POWER 服务器的支持情况,从而有一个整体概貌了解。

对于本次项目,我们需要了解一下 POWER9 支持的 HMC 有哪些型号,从下面的图示可以看出, 7042-CR7 或以上的型号都支持。具体如下:

https://www14.software.ibm.com/webapp/set2/flrt/sas?page=mtm-supported-hmc

其次,我们需要根据 POWER 服务器确定微码版本,选择合适的 HMC 系统软件的版本。例如本项目中 K1 Power E950 ,我们将检查如下网站,找到合适的优化的 HMC 版本。

https://www14.software.ibm.com/webapp/set2/flrt/matrix?domain=mtm=9040-MR9&pkey=pwr

POWER9 处理器的节能模式与动态主频

POWER9 处理器的节能特性有了很大的增强,最直观的体现就是 CPU 主频。在 POWER9 以前, CPU 的标称主频都是固定的,无论是技术手册上,还是实际运行的环境中。但 POWER9 的主频是动态主频,是一个范围。

基于 POWER9 处理器的服务器实现了工作负载优化频率( WOF ),这是 power management EnergyScale 技术的一个新特性。在 POWER9 EnergyScale 中, POWER8 动态省电模式( DPS )被下面两种新的省电模式所替代,这两种模式要么有利于降低功耗( DPS ),要么有利于提高性能(性能优先动态省电模式( DPS- FP )):

每个基于 POWER9 处理器的服务器都默认启用了 DPM 或 MPM 。与 POWER8 服务器相比,这两种模式都可以动态调整处理器频率,以最大限度地提高性能,并支持更高的处理器频率范围。每一种新的省电模式在运行环境的限制是满足的前提下,提供一致的系统性能,没有任何变化。几个因素决定了处理器模块的最大运行频率

  • 处理器利用率:较轻的工作负载以较高的频率运行。
  • 活动核的数量:较少的活动核运行在较高的频率。
  • 环境条件:在较低的环境温度下,核心能够以较高的频率运行

本次项目的 K1 Power E950 配置的 32 个 POWER9 核心,主频范围是 3.60 to 3.80 GHz ,但这也是手册标称范围,实际运行的主频范围比这个范围指更大。不同的配置,其不同节能模式下的 CPU 主频范围如下所示:

通过 K1 Power E950 的 ASMI 管理界面可以看到, Idle Power Saver 默认已激活。

在实际运行时,也可以通过 lparstat -E 1 查看实时运行频率。

硬盘 RAID 和 JBOD 的配置模式

K1 Power E950 本次配置了 8 块 SAS 硬盘,但在安装操作系统时,没有发现可用的硬盘。经过查阅资料和沟通工程师,了解到现在的 POWER9 的服务器都配置了 RAD 卡。底层的 SAS 硬盘在配置时,既可以工作在 JBOD 模式(传统的无 RAID 模式),也可以工作在工作在 RAID 模式(硬盘需要配置 RAID 阵列才能使用),而出厂默认的都是 RAID 模式。

因此,按照以往的经验直接安装 AIX 或通过 LVM 配置 rootvg 镜像,是无法发现可用磁盘的。 K1 Power E950 配置的 RAID 卡支持 RAID 0/RAID 5/RAID 6/RAID 10 ,各种 RAID 的比较如下,各位读者可以根据情况选择。

通过上述描述,我们了解到底层的磁盘有两种格式,一是独立的磁盘格式( JBOD ), JBOD 的磁盘的每扇区块大小是 512 字节或 4096 字节(根据配置磁盘类型);二是 RAID 阵列候选盘格式( pdisk ),磁盘的每扇区块大小是 528 字节或 4224 字节。

我们通常的习惯是在 POWER7 服务器里采用独立的磁盘格式( JBOD ),然后通过 LVM 配置软镜像。而 POWER9 默认都是 RAID 候选盘格式( pdisk ),如下左图所示。因此,我们在使用这些硬盘之前,需要创建我们需要的 RAID 阵列,只有再创建 RAID 后,才有我们熟悉的 hdiskx ,如下右图所示。

也可以依然选择采用 JBOD 的格式,然后通过 AIX LVM 直接做 VG Mirroring ,我司这次实施也是选择的这种方式,毕竟我们的管理人员已经习惯了 AIX LVM ,不希望多一层 RAID 的管理繁琐,而且一直以来, LVM 的方式运行都很稳定。当然,如果您也希望还是和以前一样采用 AIX LVM 直接做 VG Mirroring ,那么需要提前把默认的 pdisk 格式重新格式化为 JBOD 的格式,这样才能直接安装操作系统,按照以前的方式管理。

实施效果

目前, K1 Power E950 已经完成部署与上线前的数据库切换验证测试,功能均验证无误,流程正常,数据库函数计算正确,存储正确。流程功能验证包括无计划长险团单承保、有计划员福产品团单增人、修改被保人重要信息等功能模块。

替换前后的新旧设备也就扎帐提数计算分批批处理(与同一天生产数据批处理进行比较)的运行性能进行了比较,替换为 K1 Power E950 后的性能有了大幅提升;如下图所示,最低的提升场景,性能提升也达到了 1.4 倍,最高的提升场景达到了 3.5 倍的性能提升。

经验总结

  • 服务器资源优化或替换应从整个架构出发考虑,需求最稳妥的、平滑的方案。如本次项目涉及到两地三中心的灾备架构,在对生产环境进行优化时,需考虑生产中心、同城应急中心和异地灾备中心的架构一致性要求,以及带来的方案和实施的复杂性,力求控制最低的风险。
  • 方案架构选型或服务器选型,应从性能、可靠性、风险,以及投入成本进行了综合考虑,而不仅仅单一的采购成本。如本项目前述的两类方案的比较描述,单一的硬件采购成本比较, x86 服务器似乎有一定的优势,但综合比较, POWER 明显占优。
  • K1 Power 服务器支撑保险核心系统,具备很好的可靠性和优异的性能。如本项目中, K1 Power 服务器上线前的功能测试和性能测试都验证了其优秀的性能支撑。
  • 应基于服务器厂商的设备生命周期,以及自身的运维情况,制定适合自身企业的设备生命周期管理标准。如本方案中,尽管我们对老旧设备进行更新,尽管我们按照迭代的思路进行资源再优化,但本质上我司还需建立一套设备生命周期的管理标准,以减小运维风险、高效支撑生产、降低成本。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广