在古早的狼人杀游戏里,有一个角色最受欢迎,那就是预言家。预言家跳得好,可以查杀身份,carry全场。在运维的世界里,运维工程师能不能做到查杀问题,防患于未然呢?
说实话挺难的。
但是我们可以预演一些基础内容,如根据存储空间单位时间增长量判断空间什么时候会满,会导致因空间产生的故障;可以根据存储或硬盘的IOPS波动范围预判系统异常情况,推断系统响应速度;根据日志中的异常信息判断响应的错误信息等;
运维故障发生的偶发性多于必然性,一些必然性的故障我们需要提前规避,这是运维的职责,所以偶发性的问题就比较难以预估。
系统/应用层应该是可以的,相对于容易些;
传统服务器/存储硬件层来说,几乎不可能,根据通用型经验去评估设备易损件,以及细化到同一时间节点该型号设备经常变更部件以此去预估其他同型号设备近期易出现故障点,这也是有些硬件会有一个大致的使用易损周期,比如电池、硬盘、电源等,才比较好去预判。
收起