谢谢兄弟的分享,你针对某些具体产品提出了自己的感触,很棒!
存储运维的经验,@张文正兄弟提出的感慨也颇具意义。
1、重视巡检,巡检可以发现一些隐性故障,消除隐患
2、重视日志信息,特别是一些告警信息
3、重视数据备份,再好的存储也会出现意外
4、重视机器的使用期限,一般存储到了一定时限后,随着设备的老化会出现大大小小的故障,这个时间得做好设备更替的准备和数据备份
5、关注这个设备的微码等状态信息的更替,一个一个产品出来之后,厂商会发布一些新的微码补丁在网站上,每一个微码补丁是对原来微码bug的一个修复,建议多看看升级补丁微码的readme,必要时升级微码。
另外在整体运维方面,我自己感悟了几个理论,也分享给大家,一起交流:
1,核心系统“空难论”
2,运维服务“保险论”
3,人工某种意义上比设备贵
4,对数据怀有敬畏之心
5,合作的基础必须是双赢
6,经验能够缩短RTO
7,单次服务会比长期按合作费用高
8,引入第三方服务团队,可以风险共担
9,主动服务可以降低故障率
10,和专业的团队合作