工业制造其它故障诊断系统维护

P550更换硬盘后报错,请各位老师帮忙诊断一下。

机器是P550A本机带有两块硬盘,因硬盘出现咔咔的响声更换硬盘。多谢论坛版主zhenzongjian的帮助,第一次更换硬盘挺紧张的,zhenzongjian版主远程支持说不用紧张让我有了信心。最大的体会是干运维看再多的资料不如动手去实践,过程中会有很多意外出现的要有扎实的理论基础做支撑...显示全部
机器是P550A本机带有两块硬盘,因硬盘出现咔咔的响声更换硬盘。多谢论坛版主zhenzongjian的帮助,第一次更换硬盘挺紧张的,zhenzongjian版主远程支持说不用紧张让我有了信心。最大的体会是干运维看再多的资料不如动手去实践,过程中会有很多意外出现的要有扎实的理论基础做支撑才能顺利的解决问题,在这里很羡慕那些有机器练手的朋友。
      更换硬盘过程就不多说了论坛有很多资料,问题是更换完硬盘后服务器一直在报错。请各位老师诊断一下到底是什么地方出现了问题。
---------------------------------------------------------------------------------------------------------------
# errpt |more
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
B9735AF4   0415052913 P H hdisk5         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0415052913 P H hdisk4         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0415052913 P H hdisk3         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0415052913 P H hdisk2         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0414195513 P H hdisk5         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0414195513 P H hdisk4         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0414195513 P H hdisk3         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0414195513 P H hdisk2         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0414193813 P H hdisk5         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0414193813 P H hdisk4         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0414193813 P H hdisk3         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0414193813 P H hdisk2         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0414192113 P H hdisk5         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0414192113 P H hdisk4         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0414192113 P H hdisk3         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0414192013 P H hdisk2         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0414105613 P H hdisk5         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0414105613 P H hdisk4         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0414105613 P H hdisk3         SUBSYSTEM COMPONENT FAILURE
B9735AF4   0414105613 P H hdisk2         SUBSYSTEM COMPONENT FAILURE
---------------------------------------------------------------------------------------------------------------
# errpt -aj B9735AF4 |more
---------------------------------------------------------------------------
LABEL:          FCP_ARRAY_ERR6
IDENTIFIER:     B9735AF4

Date/Time:       Mon Apr 15 05:29:38 BEIST 2013
Sequence Number: 1129575
Machine Id:      000800B5D600
Node Id:         ibm01
Class:           H
Type:            PERM
Resource Name:   hdisk5         
Resource Class:  disk
Resource Type:   array
Location:        U787B.001.DNWGN8M-P1-C1-T1-W200600A0B8335308-L3000000000000

Description
SUBSYSTEM COMPONENT FAILURE

Probable Causes
ARRAY DASD MEDIA
POWER OR FAN COMPONENT

Failure Causes
ARRAY DASD MEDIA
POWER OR FAN COMPONENT

        Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES

Detail Data
SENSE DATA
0600 0308 0000 FF00 0000 0004 0000 0000 0000 0000 0000 0000 0000 0000 7000 0600
0000 0098 0000 0000 3FC6 0600 0000 0000 0000 0000 0000 D524 0000 0000 0000 0000
0008 5000 0000 0000 0000 0000 0000 0000 0000 5347 3831 3830 3438 3438 2020 2020
2020 0623 0500 0003 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0005 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0F6F 5269 3034 3134 3133 2F31 3531 3930 3700 0000 0000 0000 0000 0000
0000 0000 2D60 7000 F205 3704 0000 0000 0000 0000 0000 0000 0000 E800 0000 0010
0000 0000
---------------------------------------------------------------------------
LABEL:          FCP_ARRAY_ERR6
IDENTIFIER:     B9735AF4

Date/Time:       Mon Apr 15 05:29:34 BEIST 2013
Sequence Number: 1129574
Machine Id:      000800B5D600
Node Id:         ibm01
Class:           H
Type:            PERM
Resource Name:   hdisk4         
Resource Class:  disk
Resource Type:   array
Location:        U787B.001.DNWGN8M-P1-C1-T1-W200600A0B8335308-L2000000000000

Description
SUBSYSTEM COMPONENT FAILURE

Probable Causes
ARRAY DASD MEDIA
POWER OR FAN COMPONENT

Failure Causes
ARRAY DASD MEDIA
POWER OR FAN COMPONENT

        Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES

Detail Data
SENSE DATA
0600 0308 0000 FF00 0000 0004 0000 0000 0000 0000 0000 0000 0000 0000 7000 0600
0000 0098 0000 0000 3FC6 0600 0000 0000 0000 0000 0000 D524 0000 0000 0000 0000
0008 5000 0000 0000 0000 0000 0000 0000 0000 5347 3831 3830 3438 3438 2020 2020
2020 0623 0500 0002 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0005 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0F6F 5241 3034 3134 3133 2F31 3531 3930 3300 0000 0000 0000 0000 0000
0000 0000 2D60 7000 F205 3704 0000 0000 0000 0000 0000 0000 0000 E800 0000 0010
0000 0000
---------------------------------------------------------------------------




# lsvg rootvg
VOLUME GROUP:       rootvg                   VG IDENTIFIER:  0007fb4b0000d6000000011a87a1b1fa
VG STATE:           active                   PP SIZE:        128 megabyte(s)
VG PERMISSION:      read/write               TOTAL PPs:      1092 (139776 megabytes)
MAX LVs:            256                      FREE PPs:       384 (49152 megabytes)
LVs:                11                       USED PPs:       708 (90624 megabytes)
OPEN LVs:           9                        QUORUM:         1 (Disabled)
TOTAL PVs:          2                        VG DESCRIPTORS: 3
STALE PVs:          0                        STALE PPs:      0
ACTIVE PVs:         2                        AUTO ON:        yes
MAX PPs per VG:     32512                                    
MAX PPs per PV:     1016                     MAX PVs:        32
LTG size (Dynamic): 256 kilobyte(s)          AUTO SYNC:      no
HOT SPARE:          no                       BB POLICY:      relocatable收起
参与42

查看其它 36 个回答斑鸠的回答

斑鸠斑鸠系统工程师DNT
1.dac3 ACTIVE dac?NONE ACTIVE

这个说明你机器有一条链路不通了 你这个机器估计之前就有这些问题了 只是刚好你换硬盘赶上了

2.2.Logical Drive Not On Preferred Path

这个问题可以参考:
逻辑盘不在最优路径“Logical Drive Not On Preferred Path”

“Logical Drive Not On Preferred Path” 是DS4000/DS5000系列中最常见的问题。这个问题指的是DS4000/DS5000 的逻辑盘(LUN )没有挂在原本所属的控制器下。因为从主机到
DS4000/DS5000往往有2条光纤通道,所以这个问题并不会影响数据访问。

2 ) 原因分析:(主要有6点)
在AIX环境下,主机到DS4000/DS5000 的通道切换使用RDAC模式,是由安装在主机操作系统上的RDAC驱动程序控制的。因此当发生逻辑卷LUN 的切换时,原因往往来自DS4000/DS5000外部,而不是内部。

可能原因如下:

a.从主机的光纤卡到Logical Drive 的光纤物理链路有问题。表现如下:
.主机的光纤卡HA1损坏
.主机的光纤卡HA1到光纤交换机fabric1 的光纤有问题
.光纤交换机fabric1异常掉电或硬件故障
.光纤交换机fabric1 的GBIC/SFP有问题
.光纤交换机fabric1到Controller B 的光纤有问题
.DS4000/DS5000控制器 的GBIC/SFP有问题

b .P-Series主机的dar0的虚拟设备配置有问题,例如运行"fget_config -Av"时显示"dac0 active dacNONE active"

c. 光纤交换机fabric1的Zone设置有问题。正确的设置是必须创建“一对一”的Zone ,使主机的光纤卡HBA和DS4000/DS5000控制器的主机端口Host Port一一对应。

d. 主机光纤卡HBA和DS4000/DS5000控制器的主机端口Host Port之间的光纤连线方式不正确,没有符合IBM 的规范。e. DS4000/DS5000 内部的Mapping 问题,包括是否建立AIX 的Host
Group,以及是否把Default Host Type改成“AIX”  (适用于只有Default Group 的情况),Linux 主机的Host Type是否正确,等等。

f .控制器发生过重启,或者控制器已经Offline(离线)

3 ) 检查的确认方法:(主要有8点)

a.确认从主机的光纤卡到逻辑盘Logical Drive 的物理链路是完全正常的。登陆上相应的光纤交换机,如果是OEM博科的交换机,可以运行"switchshow",确保在相应的主机光纤卡端口和DS4000/DS5000控制器端口上都能看到WouldWide Name(WWN) 。另外,通过“uptime”和“errdump”命令,确认交换机正常。

b .或者查看光纤交换机相应的主机光纤卡端口和DS4000/DS5000控制器端口的状态灯: Port Status LED 绿光常亮(不能是橙光常亮或熄灭/慢闪)

c .登陆主机,运行“fget_config -Av”确认dar的虚拟设备配置正常:
.只有一个dar0和一对dac0/dac1设备  (每一台DS4000对应一个dar设备和2个dac)
.显示"dac0 active dac1 active"  (如果不正常,必须安排停机时间,运行以下命令将所有hdisk/dar/dac设备删除,并重新配置dar和dac设备)
rmdev –dl –darX –R  (rmdev all hdisks)
rmdev –dl fcsX –R    (rmdev all dac)
cfgmgr –v

d.  确认光纤交换机的Zone设置没有问题。也就是说,每个Zone里面只能包含一个主机的光纤卡,最推荐的方法是每个Zone里面只包含两个成员,主机光纤卡的一个端口和外设存储
的一个端口。

e.  确认主机光纤卡 HBA 和 DS4000/DS5000 控制器的主机端口 Host Port 之间的光纤连线方式是正确。关于正确的连线方式,请参阅红皮书“IBM Midrange System Storage Implementation and Best Practices Guide SG24-6363-04”第 12 章“DS5000 with AIX, PowerVM, and PowerHA” 。

f .在SM客户端管理软件里面确认DS4000/DS5000 的控制器状态正常

g .检查DS4000/DS5000 内部的Mapping是否正确,包括是否把LUN放到Host Group或者独立Host里面(除了DS4300,其余机型禁止使用Default Group )是否把Default Host Type改成实际访问的主机类型(适用于只能使用Default Group 的DS4300 )。 在AIX或者是Linux主机环境下,名为“Access Logical Drive” 的mapping(lun 31)是否已删除。

h.  确认  Linux主机的host type是否正确。

故障现象:
   1.SM报逻辑盘不在最优路径“Logical Drive Not On Preferred Path”
   2.发现部分LUN在两个控制器之间来回切换
   3. 由于LUN不断的在来回切换,导致相关主机的访问非常缓慢。在极端情况下,可能会连SM客户端软件都无法连上控制器。

解决方法:
  1.  首先确认有没有Linux类型的主机访问
  2. 如果有Linux主机,就要确认Host Type是否设置正确

Lunix有两种方式来实现路径冗余,要求的host type是不一样的:

RDAC  双通道软件(主流方式)  ---> 要求Host Type必须设置成LNXCL( 旧版微码)或者是LNXCLVMWARE(新版微码) 。这两种host type 的ADT/AVT是Disable
HBA Failover Driver           ---> 要求Host Type  必须设置成Linux 。这种host type 的 ADT/AVT模式是Enable 。
互联网服务 · 2013-04-18
浏览2045

回答者

斑鸠
系统工程师DNT

斑鸠 最近回答过的问题

回答状态

  • 发布时间:2013-04-18
  • 关注会员:2 人
  • 回答浏览:2045
  • X社区推广