nkj827
作者nkj827·2020-04-30 23:23
项目经理·长春长信华天

X86服务器硬盘子系统故障处理

字数 983阅读 1036评论 0赞 0

DASD 故障

服务器维修过程中 DASD ( Direct Access Storage Device 硬盘子系统,其包括:硬盘,硬盘背板, SCSI 线, Raid 卡,主板) 故障居多,当 DASD 出现故障时,客户总有许多问题会要求提供 Root Cause 。

2.1 DASD 的故障原因

DASD 出现问题时,客户总是希望知道故障原因,建议从以下几点给予客户解释

• 1 )环境问题(电流的冲击,温度过高,灰尘静电堆积状况)

• 2 )微码和版本问题( Raid 卡、硬盘等的微码, Raid 卡的驱动)

注: Raid 卡的微码和 Raid 卡的驱动需要在同一 Level

• 3 )硬件问题

现场工程师是没有权利定性此故障原因为硬件问题的,只有对备件送去 ITPC 做 FA 测试后,才能确定备件是否存在硬件问题。如果碰到数据丢失的情况,请谨慎地回答客户的提问,一定要让 CAG 帮助分析和确认故障的 Root Cause 。

2.2 硬盘的状态

– 硬盘正常状态:

绿灯闪烁,琥珀灯不亮

– 硬盘异常状态:

硬盘掉线-琥珀灯长亮

硬盘 Hung -琥珀灯长亮

– 硬盘 Rebuild 状态:

绿灯近似长亮的闪烁,琥珀灯有规律的闪烁

– 硬盘两个指示灯都不亮(硬盘为 Hotspare 或 Ready 状态)

2.3 更换硬盘

– 更换单块掉线硬盘

操作流程:

  1. 建议客户异地备份数据
  2. 备份阵列信息(客户同意重启服务器)
  3. 抓取 Raid 日志并分析(是否有坏条带,是否有 PFA 等)
  4. 更换掉线的硬盘
  5. 确认硬盘 Rebuild 成功

– 更换多块掉线硬盘

操作流程:

  1. 建议客户异地备份数据(若客户的阵列已掉线并数据无法被访问,建议客户找数据恢复公司。除非客户承诺 IBM 对其数据免责,否则不予操作。)
  2. 备份阵列信息

Ipssend backup 1 a ( 1 代表 Raid Controller 1 , a 代表备份的阵列文件名)

  1. 抓取 Raid 日志并分析(是否有坏条带,是否有 PFA 等)
  2. 按照 Raid 日志所描述的硬盘掉线的逆顺序强行 online (即最后一块掉线的硬盘第一个被强行 online )。不要去 Rebuild 最先掉线的那块硬盘,将其移除。
  3. 确认是否能够进入操作系统,如果可以进系统的话,一定让客户备份数据。
  4. 更换最先掉线的那块硬盘
  5. 确认硬盘 Rebuild 成功

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关问题

X社区推广