抛砖引玉-集停机,升级,变更,意外于一身的案例

一个普通的变更,离奇的决定,崩溃的结果用户存储根据厂商反馈需要升级微码,此次维护操作可以在线操作。向用户报告此次升级在线操作,对前端业务没有影响,但是用户内部经过讨论认为停机更为稳妥,毕竟存储端做操作怕影响数据。那就按照计划停机操作,停业务,数据库,RAC/HA/OS等。等存...显示全部

一个普通的变更,离奇的决定,崩溃的结果
用户存储根据厂商反馈需要升级微码,此次维护操作可以在线操作。向用户报告此次升级在线操作,对前端业务没有影响,但是用户内部经过讨论认为停机更为稳妥,毕竟存储端做操作怕影响数据。那就按照计划停机操作,停业务,数据库,RAC/HA/OS等。等存储端变更完毕,启动OS/HA/RAC/数据库。意外发生了,HA起不来了。崩溃死了,查原因吧,一查发现共享存储磁盘属性上reserve_policy变了。变成了默认值了。
关了下系统,这个值咋还变了呢,在检查了其他属性,发现都变了,我的天啊,升级微码会影响到这个吗?存储工程师也傻眼了,百年不遇啊,冤枉啊。当时也顾不了查找原因了,既然变了,改回来先启动业务再说吧,等业务起来后,先抓取AIX日志再说,发给IBM,看看厂商咋分析吧,这次IBM效率还挺快,2天就给了回复,非常抱歉的跟我们说,遇到了bug。

收起
参与13

查看其它 3 个回答jxnxsdengyu的回答

jxnxsdengyujxnxsdengyu课题专家组系统工程师江西农信

很多疑难杂症最后都定位在操作系统BUG,本身这就是件很无奈的事情。花费了大量精力不说,你还不能怎么样。只能定期查看最新微码、版本建议,但升不升又是件很难抉择的事情。

银行 · 2017-06-06
浏览4304

回答者

jxnxsdengyu
系统工程师江西农信
擅长领域: 存储灾备双活

jxnxsdengyu 最近回答过的问题

回答状态

  • 发布时间:2017-06-06
  • 关注会员:5 人
  • 回答浏览:4304
  • X社区推广