背景:目前企业已经有类似BMC这这中传统的监控和告警平台,但是企业容器平台自带promethus监控,云管平台本身也会从VMWARE等不同云平台收集监控和告警信息。
问题:监控系统是否需要统一吗?
系统越来越复杂后。维护就变得更加重要。而对于所有业务的监控也就成了平时运维人员了解系统状况的一个主要窗口。所以当系统变得越来越重要和庞大时。监控平台也应该建设的足够智能和强大。
收起(1)云管平台和传统的设备,不是两套,不要划清界面。 所谓的云的概念,一定要端正,云是种服务,不是任何设备的代名词。
所以,你BMC监控,你告诉我,为什么不能集成对云的监控。
(2)传统的企业,不可能完全新建,必须是借助云来整合老的设备,然后新的项目上Kubernetes,上容器云。 vmware + Kubernetes + critix + 裸机(物理机) 可以整合成一个大的企业私有云。 而这个私有云,需要有一个统一的监控中心。然后搞一个统一的监控大盘(APM)
如果,现在你的BMC不支持,你可以去询问你的bmc的vendor,是否支持对prometheus的整合,是否可以访问prometheus的api接口,这并不是很难的。
需要一个统一的监控平台实现告警事件的集中管控、丰富、翻译、告警、分发等等。否则每个告警平台各自为政,推送的消息格式不统一、CMDB基准不一致,造成告警误判。而且也不利于事件的统计、分析,也不利于今后运维智能化方向的演进。
收起最好运维的头等大事可以说是监控了,没有监控犹如人无双眼,那是不是说有监控就能万事大吉了呢,显示不是。大量的无效告警,重复告警,如果不能很好的设置规则,那么监控给你带来的烦恼也是问题诸多,反而会拖累整体运维工作。
不管哪家的云管平台产品均是有所监控的,但是这个监控范围和整体可控性,应该来说没有统一的监控产品兼顾的那么周全,否则就要在云管平台上做大量的二开,工作量和投入也不小。
为了有利于整体的运维和后期的持续性,应该结合企业自身的具体需求,维护好一个开源或者商业产品监控解决方案,作为监控的统一入口,不断的更新迭代,一段时期下来企业就会积累很多经验,后期的运维也会更加的自如。
以上是个人的一点建议,仅供参考。
收起