总的来说,巡检是对监控的一种补充。
巡检是人工进行的例行检查,对机房数据中心的环境和设备进行检查登记,及时发现故障和隐患。监控系统是通过网络协议采取相关设备(例如服务器,存储,交换机,路由器,备份设备等)和系统(例如windows,Linux,Web,db,负载均衡等)的数据,根据设定的规则来判断是否存在故障或隐患。当时监控系统对网络和承载的系统依赖性比较大。如果一旦出现网络中断或抖动或者承载的系统出现故障很容易引起误报或失效。
巡检在运维过程中发挥着非常重要的作用。且不说现在的自动化运维各项监控指标还不完善,有些监控指标还无法获取真实有效数据,只是存在理论上的可实现,还没有落地。到目前为止,个人感觉,监控无法完全替代巡检。原因如下:
1、如果遇到特殊情况,比如网络中断、监控服务器故障等等,监控获取不到数据。无法确认机房设备是否正常。
2、即使监控指标足够多,如果出现问题,被监控主机死机、服务挂起等远程无法响应的情况怎么办?
3、有些情况是监控无法做到的。比如:机房进老鼠、灰尘多、机房制冷设备异常导致高温等,都需要现场处理。定期巡检可以发现问题并及时进行干预。
巡检是对监控的最大补充,有些隐藏的问题是监控所监控不到的,巡检实际上对预防性维护,巡检过程中能发现很多问题是监控所做不到的,特别是一些应用软件等方面的,还有一些系统方面的等等吧!所以日常定期巡检很必要啊!
收起监控是基于规则,巡检是基于人的经验,互补
收起巡检管理是一项偏管理的工作,也业务运行保障的重要支撑,涉及巡检人员安排,巡检结果复盘,等等。
巡检工具是支持巡检管理工作的,让巡检更加的高效;
监控更多的是一个工具,他用来及时的发现问题保障系统稳定运行,巡检做和不做和监控系统是否全面没有关系;
因为他们都是用来保障稳定运行的,如果说有工具和管理体系让系统已经足够稳定,那么人工巡检管理的工作可能会淘汰掉。
监控软件覆盖的范围全不全是首要问题,如果监控软件覆盖范围全的话,会减轻日常巡检的工作量。但是一般商业银行都覆盖不全,目前数据中心的监控涉及的方面比较多,一个监控软件厂商是不能都覆盖全的,比如数据中心基础设施监控(空调、动力、UPS、供电等)、基础环境监控(服务器、操作系统、数据库、中间件、虚拟化、存储、SAN、网络设备、安全设备等)、应用监控(APM)、网络监控(NPM)、链路监控(波峰设备等)等几个大的监控平台,还有比如基于某些特定产品的监控(vmware的operationmanger,存储的TPCC等)。
总体来说监控平台就是系统告警的时候第一时间通过短信或者邮件等方式及时的通知到相关负责人及时处理问题。具体的问题分析还需要人为的进行问题分析和故障定位,日常巡检就是把这些监控平台的数据进行更深入的关联分析,检查监控平台无法监控的内容。