zhangpeng4007
作者zhangpeng4007·2020-06-22 12:05
系统运维工程师·某城市商业银行

异构存储监控线上交流活动问题总结

字数 6602阅读 1725评论 0赞 2

一、前言

随着国内外数据存储行业的火热发展,各种存储厂商,都相继推出自己的各种高端,低端存储设备,都有其特色和优点。“群雄逐鹿”的存储江湖中,客户购买存储设备时,因为各种考虑,选择了不同厂商,不同型号的存储设备,每种设备都自带管理软件,管理人员对设备进行管理时,需要登录到每一个设备的管理节点去对设备进行特定操作,当存储设备达到一定规模,就需要维持很长的管理列表,用于记录和维护各设备的用途、容量、分配和基本信息,工作任务繁重、效率低下。而且如果企业存在大量的不同厂商及型号的存储设备,如果没有一个统一的平台来监控所有的存储设备信息,则很难对存储设备进行高效的的利用,只有在宏观上把握所有的设备信息,才能更好的利用存储设备完成存储任务。

金融行业中都有各自对其存储系统性能和容量管理办法,存储的管理部门需要进行规划制定、指标监控、分析评估、优化调整等内容。存储管理人员需要从整体上进行管理和汇报,需要负责监控性能和容量的相关指标,对性能和容量进行分析和预测,定期向上级部门和监管部门提交性能和容量分析报告,主动关注性能和容量事件并向监管部门提交性能和容量优化方案,还需要组织制定、修正性能和容量的相关指标。这些繁杂的工作,如果没有异构存储统一监控平台,会耗费管理员大量的工作精力。

金融行业传统异构存储监控平台,通常使用基于 Web 界面的监控系统 Zabbix 和分布式消息系统 Kafka ,来部署集中监控系统,常常使用 SNMP 协议传输告警信息,但对存储设备的专项信息和指标获取不完整。通过搭建异构存储统一监控平台,使整体设备运维管理监控平台,通过异构存储统一监控系统与存储设备联动起来,对异构存储进行更深入全面的管理。那么如何低成本搭建和完善适合自身存储环境的异构存储监控系统,发挥异构存储统一监控的优点,提高故障预警、性能调优和定时报告效率,都是很多金融行业在不断发展中思考的问题。在这次交流中,我们将会对银行业异构存储的常见问题,进行专家问诊与交流讨论:

如何“ 0 成本”搭建一套存储管理人员自己的异构统一监控管理软件?由于行内已经有全体设备的统一监控管理平台,但使用中发现无法完全满足存储管理的指标要求,行内也没有额外的经费继续投入开发,或针对异构存储再开发一套系统,存储管理部门可以自行搭建完成吗?后续是否能通过这项工作,实现对异构存储管理从被动救火,应接不暇,到主动输出价值,高效管理呢?市场上常见的异构存储监控软件都有哪些?各自都有哪些优缺点?如何既经济又安全地选择市场上高口碑和好评的异构存储监控软件?金融行业如何统一管理和监控众多异构存储?如何选择适合现有异构存储规模和品牌的监控软件?

本场在线讨论更多交流问题回顾: https://www.talkwithtrend.com/Activity/?id=1579

二、梳理交流活动中十一个典型问题

【问题 1 】异构存储监控的定位?

异构存储中存在不同的存储硬件,且经过了虚拟化设备,如果出了故障,如何知晓是哪个存储,哪个盘出现问题了,如何检索?

讨论总结:

异构存储监控定位正是异构存储统一监控,相比与单一品牌商业存储管理和定位复杂,而相比 IDC 级别监控定位有不够详细的优势特点所在。

存储虚拟化设备以及其后端存储都会接入异构存储监控平台,出于维护和未来调整的角度,都会这样来做,例如行内存储虚拟化 SVC 后端按性能和容量需求分三个层次,共 7 台存储设备,均接入监控平台。

如果经过存储虚拟化设备,无论是存储虚拟化网管( SVC/VPLEX )还是后端可以挂载其他存储的高端存储设备,整合都是在逻辑卷以上,这些逻辑关系以及状态都会被监控,而逻辑卷以下,通过后端存储的监控实现,包括物理磁盘,磁盘组,各存储端口、 CACHE 、处理器以及电池风扇等部件。

一旦某应用系统是由于逻辑卷状态或 SAN 链路(包括端口)导致出现问题,那么下面贴两张实际中的图上来,第一时间就可以找到关联的主机、虚拟化存储池、后端存储以及故障部件或主机与存储之间 SAN 链路部件( HBA 卡、光纤、 SAN 交换机等),检索就一层一层点下去就可以,例如主机发生故障,逻辑卷状态如果不是联机( ONLINE )状态,会找到对应的存储池点进去查看,存储池对应着后端存储,点进去直接看到后端存储各部件状态和告警信息,第一时间就处理了。如果没有这样的系统,会对存储管理员的日常记录分配习惯和记忆力有很高的要求。



【问题 2 】 存储的一体化监控有关联其他监控平台的监控项吗?

比如存储里的物理磁盘会对应到逻辑 lun 或者 NAS 里的一个目录, lun 或者目录又对应到哪个服务器或者哪个虚拟机?这样在监控告警或故障诊断时,是不是更便于根因分析?

讨论总结:

异构存储统一监控相比于上层整体监控系统(也就是包含主机、存储、动环等所有设备的监控)的优势之一,就是在于能将存储物理磁盘 - 物理磁盘组 - 逻辑池 - 逻辑卷 - 映射主机 - 主机逻辑磁盘(或物理磁盘 - 物理磁盘组 - 逻辑存储池 - 逻辑卷 - 共享目录 - 主机挂载点)这样的关联影响监控并预警出来,根因分析是很重要的一方面,另外,评估故障对业务的影响范围,以及维护方案以及维护时间窗口,都需要根据此平台给出信息加以判断。

这样完整而快速的分析,就是为了弥补其他监控平台仅能通过 SNMP 告警硬件故障,而不知影响范围,需要存储管理员去各台存储设备查看的亡羊补牢式工作。

【问题 3 】 贵单位的硬件监控系统是自主开发还是第三方开发?这个这套软件成本大概多少?是否只是监控作用?

是否只要被监控的设备管理口能通讯就能纳入这个监控系统?不需要再在设备上安装客户端之类的吧?是否支持所有硬件设备?有什么特殊要求吗?

讨论总结:

整体的硬件监控系统是由多年前厂商开发的,不过对异构存储支持的并不理想,而针对异构存储监控的软件是商用的软件 SC ,成本应该在小几十万的量级。

根据监控软件不同,和所管理设备不同,结果也不同,但管理口基本都需要接,部分还需要监控前置机或设备管理机能够通讯。部分前置机和管理机(需要 LAN 或 SAN )与存储设备通讯。

插件或监控数据收集基本都不会影响到设备运行,如果需要会在监控前置机或监控服务器上安装;可以详细把存储设备型号贴上来咱们一起研究,不过目前存储支持绝大多数厂商的设备,已经很全。特殊需求就是一些设备的 firmware 版本、性能收集开关设置、具体的设置和选取的监控软件相关

【问题 4 】异构存储的日常管理?

金融系统作为特殊的行业,对于存储的重要性,不言而喻。大家都会面临这样的问题,当存储设备达到一定规模,就需要维持很长的管理列表,用于记录和维护各设备的用途、容量、分配和基本信息,工作任务繁重、效率低下,如何在项目实施前期通过合理的选型与配置,做到预判,避免在日常使用中出现类似的问题?

讨论总结:

对于金融行业,存储项目众多,品牌多样,用途各异,存储管理工作繁杂但要求细致、准确与合理,因此为规避由于基本信息梳理效率低下的问题,建议有如下两点:

  1. 建议对现有存储设备进行资产盘点和存储资源按性能、类别和用途分类梳理之后,形成不通的资源池,通过异构存储统一监控形成存量空间报告和容量分析报告,对现有业务增长速度做出正常的评估,为后续的扩容采购提出客观的建议,避免亡羊补牢式的工作,做到资源预判
  2. 新项目实施前期,在选型和配置是,一是要满足项目本身的需求,最好能够对存储整体资源池进行补充,缓解该类业务的存储需求,以及未来 3-5 年的增长需求。
  3. 设备管理列表、用途、容量、分配与映射情况, SAN 拓扑,不通业务域所用空间报告,都可以通过存储统一监控来辅助,可以大大提高存储管理的效率。

【问题 5 】异构存储的监控后的报警标准?

我们知道,报警的报警阀值是很难设立的,通常我们会选用基线来定阀值,但如果有异构存储的话,底层的存储是不一样的,那 IO 就有可能时快时慢,请问,我如何设置这种阀值呢?是否能对其中不同的存储分别设置监控指标?

讨论总结:

这个问题建议分三个层面来分析:

  1. 业务逻辑层:无论何种架构,银行业务上线前的架构设计、投产评审都会有相关业务的访问逻辑和使用高峰与特点,如实时交易类的系统对随机读写访问 IO 要求较高,主要集中在日间;而监管报送类系统需要在夜间进行批量操作,对批量时间又要求,因此 IO 会以大量的写操作为主;因此 IO 阀值会根据不同业务系统的峰值进行设置,以这个标准去匹配性能能够达到要求的存储设备,再配合系统监控的磁盘繁忙百分比和关键业务指标,多角度综合判断会比较合理。
  2. 系统层面:在系统集成完成后,通常会进行压力测试,数据体量规模,在业务层面打压,给出系统可以承受的极值,并根据业务正常相应的压力值,设置极限 IOPS 值,再按百分比设置告警值(例如 85% ),另外可以通过 IOMETER 或 PYTHON 等的存储性能工具在搭建好的系统运行一下,根据极限值的百分比设置阀值
  3. 存储层面:在异构存储监控软件或存储厂商自带的监控软件中,收集并分析一段时间映射给主机 LUN 的 IOPS 情况,并根据存储访问峰值和存储自身指标设置告警阀值。

综合参考以上,进行 IOPS 阀值综合设置,同时还要参考其他指标综合来看。不同的存储本应设置不同的监控指标,尤其是性能指标,根据存储设备的极限值和来确定该存储适用的业务,充分发挥作用,提高异构存储尤其是利旧存储的使用效率,节能减耗,便于管理。

【问题 6 】目前哪些软件支持对异构存储统一监控?

目前哪些软件支持对异构存储统一监控?而且必须是符合金融企业合规的?

讨论总结:

绝大多数存储厂商的异构存储统一监控软件,和支持 SMIS 协议的网管软件,都可以实现此类功能。金融行业合规性主要原则是,应当遵循独立性、系统性、全员参与、强制性、管理地位与职责明确的科学管理原则,对各管理岗位与职责明确的,各相关人员的角色和职责清晰界定。因此,异构存储监控软件在安全管理、存储性能监控用户权限会严格限制,不同报告内容的目标角色会进行相应地删选发送。同时,异构存储监控系统本身,属于内部系统,漏扫和版本监测通过之后,便基本符合需求。

【问题 7 】异构存储的性能下降的幅度?

异构存储,故名思议,要将不同体系、品牌的存储连接起来使用,这样的做法必须是该存储是有接口开放,支持这种模式运行的,但是,这样的话,性能不可避免的会下降,请问下降幅度大约有多少?

讨论总结:

这个问题,各存储厂商应当都有所考虑,为了监控或管理不损耗存储本身性能,在 Firmware 层或存储内部管理控制台内部(通常含有一套经过优化改造的操作系统)会讲自身性能数据按用户需求收集与保存,同时负责通过通讯协议讲性能数据传输至外部异构存储监控平台,因此对存储本身性能影响微乎其微,但部分厂商有些旧型号设备内部 code 优化不好的设备,会由于性能数据积累,影响内部使用空间,更改设置或定期清理即可。

【问题 8 】项目商业集群存储?

目前项目中使用资源是多种存储混合使用,目前项目管理人员经常需要切换多个平台,包括开源自建,及商业存储自带的,经常出现遗漏等风险,是不是有什么方案或者技术可以将平台监控能力进行整合?最低要求是统一平台监控硬件。

讨论总结:

上面这种场景是金融行业或者其他行业中很普遍的现象,由于项目中各系统需求不通,各存储用途不通,导致管理容易疏漏、监控难以统一,其实开源自建的存储还比较容易统一,首先对标准服务器的硬件设备进行监控目前都比较成熟,通过管理端口进行状态采集并分析即可,但其他传统统一存储的管理平台就各异了。

项目管理人员在设备安装使用时,进行资产录入和管理 IP 配置的时候,就加入到监控平台中,一方面可以随时监控存储状态,避免因 firmware bug 或故障影响项目进度,另一方面,项目进行中的各项测试也需要平台来提供存储侧的报告数据,项目实结束后,交付运维的时候,也是清晰明确。

【问题 9 】异构存储监控问题?

据目前了解,监控软件有多种,每个存储厂商有自有监控软件,而对于 DC 与 IDC 量级的,大多会采用类似 zabbix, 普罗米修斯之类的监控平台软件,也会有自行开发监控平台加定制化脚本监控,因为有开发人员维护并具备多基础设施监控能力,我想问问大佬们在实际应用采用的监控方案是什么样的?使用起来有无什么问题?

讨论总结:

根据使用和管理者不同,监控范围不通,通常厂商的存储监控软件是存储管理员或项目集成人员使用,监控的是该厂商存储设备为主,其他厂商的存储设备的大多数型号也能兼顾,查看内容具体详细,用于存储故障根因分析,存储指标的监控;
而类似网管软件的异构存储统一监控,是将各厂商的存储设备统一监控与管理,通常使用者就是存储管理员或基础设施中负责存储资源的管理人员,按照业务类型来看,使用者还有各应用系统的管理人员,以及行内各使用部门,异构存储统一监控,负责定期报告存储状态、容量、扩容参考意见以及各维度的定时报告,服务于 IDC 量级的整体监控平台。
IDC 量级的监控一般是整个监控组或值机组使用,负责全单位范围设备的监控,涉及到风、火、水、电这样的动环基础设施,也涉及到存储、交换机、服务器和各系统专用设备,更涉及到业务交易状态和关键应用系统指标,一旦发现故障,会调度相应的组员去解决相关问题,汇总原因再统计数据,一般关注着都是部门或行级领导,和各业务系统直接负责人。
实际使用过程中,由于级别和关注点不同,往往在实施的过程中将重点监控功能完成即可,但存储管理员希望在 IDC 级别监控,做到对某一品牌存储的热点逻辑卷进行监控与分析的程度,通常达不到,或需要再投入不少人力和财力去实现,因此异构存储统一监控,是解决存储管理员和各系统业务需求部门的具体工作、热点分析以及成本评估问题的,同时可以为 IDC 级别的监控提空具体而详细的监控对象或告警数据源,实现对整体监控的补充。

【问题 10 】异构存储虚拟化技术如何处理不同的 IOPS ?

异构存储主要是利用虚拟化技术来统一管理下端不同的存储,但不同的存储有快有慢,有好有差,如果保证输出到前端的 IOPS 保持稳定?

讨论总结:

异构存储整合和统一管理分配,可以按照存储的性能和容量,进行分层管理。

第一层:通常是性能层,利用全闪存储或性能较高的存储设备充当存储池中资源,用于实时的在线交易类系统或高性能计算。

第二层:通常是平衡层,标准的企业级万转以上的磁盘池组成,均衡性能与存储容量,适用于标准应用系统的分配

第三层:通常为容量层,用成本较低的磁盘池组成,提供近线业务存储容量为主

这三层可以通过虚拟化软件的自动层间热点数据发现和智能移动,将热点数据迁移到上层存储,保证业务在高峰时段的 IOPS 不会成为瓶颈。

异构存储统一监控并不会实现上述配置功能,但可以为关键系统的 IOPS 设置监控指标,提醒系统或业务人员 IOPS 到达阈值,需要手动或自动干预,保证主机端 IOPS 动态满足需求。另外,前端的 IOPS 本身就是根据业务特点变动的,如果了解了业务峰值,需要将该业务 IOPS 控制在峰值以下,避免影响存储设备前端口和逻辑池的整体性能,可以对 IOPS 进行 Qos 限制

【问题 11 】异构存储统一监控有哪些实施风险?

异构存储统一监控有哪些实施风险?如果将各存储告警数据流统一定制化,会影响存储性能的正常运行使用吗?

讨论总结:

大多存储设备厂商本身在存储设备设计的时候,就按照 SMIS 或 restful api 协议设计了性能数据监控与收集分析的接口,而异步存储监控在实施中只是把众多品牌的存储集中监控与收集起来,并统一监控、分析和报告。另外监控在存储中使用的用户,也仅仅只有查看的权限,并没有操作与删除的权限,因此会比较安全。各存储告警数据或性能数据,也可以按照需求和存储本身特点制定采集频率需求,一般不会太频繁,避免发生性能问题,不过如果存储本身设计的不好,性能或告警日志数据将存储内置系统容量占满,或监控进程 hang 死,需要手动干预,通常这种情况,都可以通过升级 firmware 来解决,再旧一些的存储就不适合再投入生产系统使用了。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

2

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广