日常简易维护与报修指南
**## 一、系统命令
检查系统状态 :
Ø 系统整体 : prtconf
Ø 文件系统: df – k,df -g
设备 : lsdev – C 获取设备名称、状态、位置和描述。
Ø
例 :
查看硬盘 : lsdev – Cc disk
查看磁带机 : lsdev – Cc tape
查看适配卡 : lsdev – Cc adapter
处理器个数 lsdev – C|grep proc
系统配置 lscfg – vp 获取所有已配置硬件设备的详细信息。
Ø
例 :
查看硬盘信息 : lscfg – vl hdiskx x 表示数字
查看网卡信息 : lscfg – vl entx x 表示数字
查看磁带机 : lscfg – vl rmtx x 表示数字
查看硬件属性 : lsattr – El 获取已配置设备的属性信息。
Ø
例 :
查看硬盘属性 : lsattr – El hdiskx x 表示数字
查看网卡属性 : lsattr – El entx x 表示数字
查看磁带机属性 : lsattr – El rmtx x 表示数字
内存大小: lsattr – El mem0
Ø 磁盘 lspv
Ø 交换分区 lsps – a
Ø 软件 lslpp – l 文件包名字
Ø 用户 who
关机命令 :
– shutdown
一分钟后关机
– shutdown +2
二分钟后关机
– shutdown – Fr
关机重启( -r )
关机命令调用 /etc/rc.shutdown 关闭程序
可以在这个文件里加上你自己的脚本
其它基本命令
passwd : — 输入旧口令
new passwd : — 输入新口令
re-enter new passwd : — 重新输入新
• mkdir/rm/mv/cd - 用于创建目录 / 删除文件或目录 / 更改文件或目录名 / 进入某一目录
• ls 显示目录中的内容(文件名)
• ps / kill 显示后台进程的有关信息或杀死后台进程
• find 在一个 / 多个 目录中查找符合条件的文件
• head/tail 显示文件头 / 尾声的内容
• who/finger 列出系统注册 / 已登录的用户
光驱 cdrom
• 加载 cdrom
• 使用 :
mount -rv cdrfs /dev/cd0 /cdrom
– 或者创建一个 CD-ROM 文件系统并进行加载
• smit cdrfs
• mount /cdrom
• 卸载 cdrom
– unmount /cdrom
**## 二、备份与恢复
rootvg备份 — mksysb
● 只备份 rootvg
● 只备份已挂接的文件系统
● 以备份格式创建可启动磁带
● 保存 rootvg 中的换页空间设备定义
● 保存逻辑卷策略
● 备份时应使活动的用户和应用减至最少
注: mksysb 创建操作系统备份,如果 rootvg 中有用户创建的文件系统,只要它已挂接,也被备份,用户创建的不含文件系统的逻辑卷内容及定义不备份。 mksysb 创建的备份磁带是可启动的,并可以进行 BOS 安装。
从磁带恢复 rootvg 备份时,所有文件系统被恢复,启动逻辑卷自动创建,文件系统日志设备按照默认大小(一个逻辑分区)创建,根据保存的换页空间设置生成同样大小的换页空间设备。
用户可以用一个系统上生成的 rootvg 备份恢复到另一系统上,前提是两个系统的结构相同,总线结构不同( MCA 和 PCI )或 SMP (支持多 CPU )与非 SMP (只支持一个 CPU )的系统间不能进行上述操作 。
• Creation of a MAP file :是否为卷组中每个要备份的逻辑卷生成逻辑分区到物理分区的映像文件。这个映像文件可以使恢复时逻辑卷策略和逻辑分区到物理分区的映射关系保持相同。建议创建。
• EXCLUDE files :如果选择 yes ,将使得文件 /etc/exclude.rootvg 文件中列出的文件和目录不被备份。
• Make BOOTABLE backup :是否生成可启动备份,一般取默认值 —— yes 。
• EXPAND /tmp if needed :是否在需要时自动扩展 /tmp 文件系统。强烈建议选 yes 。
• Number of BLOCKS to write in a single output :选择每次写出的数据量,以 512 字节块为单位。
非 rootvg 的卷组备份
恢复 rootvg 备份
● 依照从磁带安装操作系统的步骤用 mksysb 磁带启动
Welcome to Base Operting System
Installation & Maintenance
1 Start Install Now With Default Settings
2 Change/Show Installation Settings and Install
3 Start Maintenance Mode for System Recovery
Maintenance
1 Access A Root Volume Group
2 Copy a System Dump to Removable Media
3 Access Advanced Maintenance Functions
4 Install from a System Backup
Choose Tape Drive
Tape Drive Path Name
1 tape/scsi/4mm/12GB /dev/rmt0
恢复非 rootvg 卷组备份
依文件名备份 -smit 屏幕
其他 UNIX 备份命令
● tar ( tape archive )
◇ 适用范围广
◇ 非常适合在不同 UNIX 平台间传送文件
◇ 可恢复空目录( -d 选项)
◇ 不支持 AIX 访问控制列表( ACL ,属于扩展 inode 内容)
● cpio ( copy input to output )
◇ 适用范围广
◇ 符号链接较多时可能不能正常工作
◇ 不支持 AIX 访问控制列表( ACL ,属于扩展 inode 内容)
● dd ( device to device )
◇ 创建精确相同的备份映像,可用于精确备份逻辑卷
◇ 可用于转换某些内容(例如大小写、 ASCII 与 EBCDIC 互转等)
**## 三、 AIX 安全
控制增长迅速的文件
● /var/adm/wtmp
● /var/spool//
● /smit.log
● /smit.script
● /etc/security/failedlogin
● /var/adm/sulog
显示文件和目录的空间占用量**
du /home |sort – rn
安全性记录文件
● /var/adm/sulog
记录每次 su 命令的执行。这是个文本文件。使用任何观看文本文件的命令查看。
● /var/adm/wtmp 和 /etc/utmp
记录用户的成功登录。使用 who 命令查看。
● /etc/security/failedlogin
记录所有不成功的登录尝试。如果用户名不存在,记录为 UNKNOWN 项目。使用 who 命令查看。
安全性相关文件
● 包含用户属性和访问控制的文件
● /etc/passwd 合法用户(无口令内容)
● /etc/group 合法用户组
● /etc/security/passwd 含有加密形式的用户口令
● /etc/security/user 用户属性,口令限制
● /etc/security/limits 对用户的限制
● /etc/security/environ 用户环境设定
● /etc/security/login.cfg 登录设置
● /etc/security/group 用户组属性
用户环境的合法性检查和修正
● 检查 /etc/passwd/ 与 /etc/security/passwd 的一致性,以及 /etc/security/login.cfg 和 /etc/security/user ,同时修正错误:
pwdck -y ALL
● 检查 //etc/security/user 、 /etc/security/limits 、 /etc/security/passwd ,以及是否每个组在 /etc/group 和 /etc/security/group 中都有对应条目,并修正错误:
usrck -y ALL
● 检查 /etc/group 、 /etc/security/group 、 /etc/passwd 和 /etc/security/user 中关于用户组的内容的一致性,并修正错误:
grpck -y ALL
**## 四、 错误日志 查看
• 所有 AIX 错误都记录在一个记录文件中/var/adm/ras/errlog
•显示错误
– errpt [-a] -a 为详细显示
可以输出到文件或用 more 、 pg 察看
• 清空错误记录信息
– errclear 0
建立 / 修改口令
通过 errpt 产生错误报告
• 显示所有的错误报告
– # errpt
• 只报告硬件错误
– # errpt -d -H
• 描述 ID 为 F49E2A17 的错误报告
– # errpt -a -j F49E2A17
例:
• 标识‘ C ’:错误归类
– H :硬件
– S :软件
– O :操作错误
– U :不能确定
• 标识‘ T ’:错误类型
– PERM( 并且 C 为 H) :显示系统遇到硬件问题并且无法自动修复
– PERD( 并且 C 为 H): 系统硬件变为不可用并引起一系列错误系统
– PERM( 并且 C 为 S) :显示系统遇到软件问题并且无法自动修复
– TEMP( 并且 C 为 S) :显示系统遇到软件问题并且已经自动修复
• root 用户通过手工命令 errclear 直接清除错误日志
– # errclear 10
• 清除 10 天以前的所有日志
– # errclear -d H 0
• 清除所有硬件的错误
– # errclear -N disk 0
• 删除所有资源组为 disk 的记录
– # errclear -T UNKN 0
• 删除所有类型为 unknown 的记录
– # errclear 0
• 删除所有记录
•显示 error log 的特性
– # /usr/lib/errdemon -l
Error Log Attributes
Log File /var/adm/ras/errlog
Log Size 1048576 bytes
Memory Buffer Size 8192 bytes
**## 五、 Performance Tools
常用命令
• # ps
• # sar
• # vmstat
• # iostat
• # tprof
• # svmon
• # filemon
例:
CPU 的使用情况( sar – u )
这条命令的语法是:
例如:
AIX NODE 2 3 00000211 07/06/99
%usr %sys %wio %idle
08:25:11 48 52 0 0
08:26:10 63 37 0 0
08:27:12 59 41 0 0
.Average 56 44 0 0
当 %usr+%sys > 80% 时, CPU 紧张**
查看运行队列( sar – q )
这条命令的语法是:
例如:
AIX NODE 2 3 00000211 07/06/99
08:41:21 runq-sz %runocc swap-sz %swpocc
08:42:21 1.2 100
08:43:21 1.0 100
08:44:21 1.1 100
.
.
Average 1.2 100
注:命令 #sar – q 的输出:
-runq-sz = 运行队列的平均长度。(运行队列的平均长度就是等待在队列中的进程数目)
-%runocc = 运行队列被占用的时间百分比。
-swap-sz = 等待被内存页交换的进程的平均数目。
-%swapocc = 内存页交换队列被占用的时间百分比。
这些数据会更有意义,如果收集一段时间并且研究它的趋势。在有些环境下可以接受庞大的运行队列,而另外的环境就不一定适用。例如,在一个传统的商业环境中,进程都是简单而运行快速的,这时系统性能还可以忍受大的运行队列。而在一个工程或者科学计算环境中,进程一般都是巨大且需要更密集的资源的,此时就不能忍受大的运行队列。
Paging 信息
# vmstat 1 3
注:
命令 vmstat 的输出:
-procs = (每秒)
r 在运行队列中的进程
b 在等待队列中的进程
-memory = ( 那个时刻的统计数据)
avm 活动的虚拟页的数目
fre 在空闲列表中的物理内存槽数
-page = (每秒)
re 收回的页
pi/po 交换进内存的页 / 交换出内存的页
fr/sr 空闲的页 / 被时钟计算法则检测的页
cy 时钟循环(一般为 0 )
-faults = (每秒)
in 设备中断数
sy 系统调用数
cs 上下文交换数
-cpu = (就象命令 sar – u ,为百分比)
us 用户进程
sy 核心进程
id 空闲时间
wa I/O 等待时间
这些信息是 sar 报告的补充。
wa如果超过 25 %,那么磁盘子系统可能没有平衡好。
与 AIX 存储相关的基本概念**
l PV:Physical Volume 物理卷
l VG:Volume Group 卷组
l PP: Physical Partition 物理分区
l LP:Logical Partition 逻辑分区
l LV:Logical Volume 逻辑卷
l LVM : Logical Volume Manager 逻辑卷管理器
**## 六、错误报告流程
常见错误代码
在上电的每一阶段, LCD 面板都要显示一些数字信息:
它为您指示 :
Ø 正在进行加载的设备
Ø 当前的工作状态
Ø 加载失败的原因
可以在诊断手册中查到数字信息的含义
主机启动时的常用 LED 错误代码
Ø 0223-0229: Invalid boot list.
Ø 0551,0555,0557: Corrupted file system, corrupted JFS log, and so on
Ø 0552,0554,0556: Super block corrupted and corrupted customized ODM
Ø 0553: Corrupted /etc/inittab file
硬件报错通常 LED 会显示 8 位代码,请将这 8 位号码记录下来
除了 8 位代码外,报修还需要记录故障服务器的型号和序列号,这些号码在服务器的前面板上,也可以通过 prtconf 命令来查看:
设备型号一览表:
550 的型号为: 9113 - 550
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞26
添加新评论1 条评论
2021-01-24 12:43