金融企业在日益复杂的市场环境中, 随着金融业务的快速发展,业务系统变得越来越复杂,对可用性的要求也越来越高。一旦业务系统出现故障,可能导致严重的经济损失和声誉损害。因此,金融企业需要关注业务可用性管理,确保关键业务始终处于稳定、高效的状态。 面临着业务可用性管理的挑战。在这一背景下,金融企业需要不断完善监控管理体系,以提高业务可用性,进一步降低风险。 业务可用性管理涉及多个方面,包括业务连续性规划、故障恢复、性能优化等。金融企业基于业务可用性管理的监控管理体系是确保业务稳定、高效运行的关键。通过实时监控、故障恢复和性能优化等手段,金融企业可以提高业务可用性,降低风险,为市场竞争提供有力支持。 大数据及人工智能技术在监控领域的应用使银行系统的监控面临更为重要的机遇和挑战,银行 服务主体对业务可用性要求不断提高, 尤其 需要不断优化现有监控平台及监控策略, 需要 形成监控标准化体系 ,因此,监控管理亟待更新监控管理办法,制定相适应的管控策略。本文基于金融企业业务可用性管理的监控管理体系现状, 深入探讨 监控 管理体系的建设实践与应用 ,从监控系统、一体化运营管理平台、自动化控制三个方面展开分析,以期为银行监控管理的发展提供可供借鉴的发展思路。
一、 银行监控管理的痛点和难点
从近几年的金融企业监控现状来看,监控系统面临的主要问题有:普遍存在 不同监控平台监控策略 待优化 、告警事件、数据归集分散 的问题。监控工具方面,监控工具展示的更多的是面向专家和技术人员使用的监控视图,对ECC一线整体监控可视化需求的实现不足。业务监控方面,自动化巡检及处置流程覆盖面积小,覆盖场景单一,缺乏有效的自动化开发管理流程。我们在现有问题的基础上积极探索解决方案,概括来讲,根据监控数据现实及服务需求制定了“监-管-控”一体化的闭环管理方案。
二、 “监-管-控”监控管理体系优化策略
(一) 监:基于业务系统可用性管理的监视指标体系
为了确保业务系统的稳定运行,企业需要建立一套完善的监视指标体系。基于业务系统可用性管理的监视指标体系主要包括以下几个方面:基础组件监控、应用系统监控、业务系统架构分布和详细故障定位信息。
一是基础组件监控方面,主要关注操作系、中间件、数据库及网络设备等基础软硬件运行情况和性能,以ITM和ZABBIX为基础监控信息采集核心,通过syslog和snmp等标准协议,将存储、网络设备、安全防护等专有设备的监控事件统一归集管理,利用Omnibus形成标准的监控告警事件,与短信平台、ITIL平台进行数据集成,形成标准的事件处理流程。
二是应用系统监控方面,主要关注 响应时间、 交易量及交易成功率等应用性能指标和应用系统运行情况,针对标准化日志和数据库交易流水表等交易信息进行实时监控,并通过大数据分析平台对应用日志进行统一采集、归档、展示分析;添加应用心跳监测日志,确保在不同交易特征时段都可实时掌握应用可用性数据,保障监控信息可靠、有效。
三是 针对 业务系统架构分布的情况 , 开发 报警事件架构分布图,根据系统架构层级关系、告警事件及应用映射快速定位,并与自动化工具集成,形成联动,如存储IO故障, 导致 应用缓慢 故障告警的 根本原因定位,采取容灾切换规避等 。
四是 针对应用或业务场景故障, 制作 基于业务日志的实时故障分析展现视图,如ATM交易流水中,他代本报错,是全部他行报错,还是部分他行报错,处理的机制不同等 。
五是 提供针对告警事件、业务日志的AIops智能化分析功能,针对告警事件和日志异常进行告警提示,协助管理人员快速发现、定位故障 。
通过业务系统架构分布图将各类告警信息进行串联和优先级定义,便于在多个系统和基础组件同时报警时,根据业务系统提供服务的层级关系和基础组件的归属关系对优先级高的故障节点进行优先处置。并针对大量告警事件将常见的和影响特别大的故障场景进行归纳总结,形成告警--确认--授权--自动处置的快速处置流程。比如某类三方交易经常发生拥堵导致故障传导到前端系统造成全局拥堵事件,对此首先针对该三方交易拥堵进行监控,当该告警产生后,与管理人员确认并通过授权,由值机人员启动应急处置流程,关闭该三方交易通道,避免造成前端系统和全局拥堵事件,减小异常影响范围。后续经由业务人员分析确认,该故障有第三方原因导致,关闭后对我方无影响后,将确认与授权过程进一步压缩,由监控告警直接触发自动化处置流程,关闭通道,值机人员仅对此操作进行确认和跟踪关注,极大的提高了故障处置效率,缩小了故障影响范围。
(二) 管:基于业务连续性管理目标的一体化管控平台
一是通过一体化运维管理平台 实现针对监控对象及其构成组件的自动化登记,以及各组件的监控策略部署控制,并与监控工具集成,实现实时控制 。 建立监控档案管理,确认监控对象的监控覆盖情况,随时补充监控策略需求。利用一体化管理平台熟悉应用系统监控告警策略情况,确认监控告警有效性。监控管理规划指标与策略对应关系,便于应用管理员与系统专家理解监控策略与指标分类 。
二是形成监控对象 — 监控KPI — 监控策略 — 监控 实例化 的监控档案管理体系,针对监控事件和监控策略进行编码,形成结构化的告警事件管理和策略管理 。 设置监控热度图,能够对数据中心重要的被管理对象进行统一监控展示;按照管理层、技术专家和ECC一线值班不同角色视角,建立属于不同角色的监控视图;热度图从左到右,从上到下展示被管理对象的业务影响关系,快速定位跟因事件;将二线技术专家的知识库,通过巡检流程,实时监控业务系统可用性,出现重要事件时,能第一时间手工获取业务系统可用性状态;将被管理对象数据标签化存储,为智能运维数据分析做技术准备 。
三是与CMDB集成数据,并形成可由容灾管理平台调用的资产管理数据源,向各应用平台提供资产及监控策略管理数据 。
四是持续优化监控策略与制度:根据监控实践反馈,不断优化监控策略与制度。这有助于提高监控工作的有效性,确保业务可用性得到持续改进。
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞5
添加新评论4 条评论
2024-03-26 15:36
2024-03-08 22:18
2024-03-07 15:01
2024-03-06 14:03