首页 > 学技术 > 技术网文 > AIX > 正文

[精华] 一次宕机的处理(错误码4B2A25F4U0.1-P1-C1)


来源 chinaunix.net 酷勤网整理

IBM宕机处理全过程

背景描述:P650双机,磁盘阵列7133,4CPU 4G内存,下午一台机器突然宕机了,重启后进入OK状态,然后再按开关,LED显示了错误码,4B2A25F4U0.1-P1-C1,反复试了几次结果都一样。

初步分析:经过咨询IBM人员,错误代码的意思就是,两路CPU故障,有可能是CPU的问题,有可能是CPU卡的问题。初步思路:就是将故障的CPU隔离。 

用串口登录到维护状态:

Service Processor Firmware
       Version: 3K030814
 Copyright 2001, IBM Corporation
            1033F4A
________________________________
            MAIN MENU

 1. Service Processor Setup Menu
 2. System Power Control Menu
 3. System Information Menu
 4. Language Selection Menu
 5. Call-In/Call-Out Setup Menu
 6. Set System Name
99. Exit from Menus

选择3进入系统信息,再选择7,就是对processor的控制,将1和2设置为 manaual deconfig 状态,就是将这两个CPU隔离了。然后重启系统,但是故障依旧。以为是CPU隔离错了,就将3和4号配置成 manaual deconfig,1和2号回复为 manaul config,从启后故障依旧。

第二天早上来看,第二台机器也宕掉了,错误和第一台一摸一样。

这时在IBM工程师的远程支持下,在维护模式下,将错误日志发给了他,
2.  05/04/2004 14:01:47     System Processor Failure
    Error code: 4B2A25F4

    Priority       FRU        Location Code
    --------       -------    ---------------
    High           00P4050     U0.1-P1-C1




    SRC
    --------------------------------------------------------------
    word11: 4B2A25F4    word12: 02100011    word13: A2101103
    word14: 00000000    word15: 00000000    word16: 00000020
    word17: F3820004    word18: 0020FFFF    word19: FFFFFFFF

    B438    800325F40000000000000000

IBM首先怀疑是电源问题,至于为什么不知。
查看后发现确实是有点问题,一个机柜中有两个插排,所有的电源都插在了一个插排上,另一个没有用?(为什么是这样也不得而知了,谁知道这个工程是怎么做得)。关机调整后,重新开机,但是错误依然。


最后INM工程师提示,将启动方式改为fast boot,以前为slow boot,再次启动,居然正常了。

之后用snap收集了相关信息发给IBM,具体结果还不得而知。IBM初步给的建议就是微码升级!

http://techsupport.services.ibm.com/server/mdownload/download.html



 yanbing 回复于:2004-05-07 21:13:00

一般来说,两台设备出现同样的问题,一定和共性的东西有关。

比如,环境与微码等。

这件事情有个结果还望回来说一声,也给大家一个参考。谢谢!


 xzhj19 回复于:2004-05-07 22:47:52

fast boot? slow boot?
why?


 溜溜达达的狼 回复于:2004-05-08 09:18:08

是哪里出现问题了,FAST BOOT应该是跳过一些检测,所以通过了。但是安全隐患应该没解决!


 stder 回复于:2004-05-08 14:22:02

是的,IBM的解释是,可能是个微码BUG ,在慢起是才有影响。升级微码可以解决这个问题,先升级微码然后再看看,明天升级微码后才知道。


 aixnewer 回复于:2004-05-08 16:06:51

如何设置fast boot 和slow boot呢


 stder 回复于:2004-05-09 22:07:40

用串口连接机器(超级终端速率设成9600)就可以脸上。


主菜单如下:
Service Processor Firmware
       Version: 3K040323
 Copyright 2001, IBM Corporation
            1033F4A
________________________________
            MAIN MENU

 1. Service Processor Setup Menu
 2. System Power Control Menu
 3. System Information Menu
 4. Language Selection Menu
 5. Call-In/Call-Out Setup Menu
 6. Set System Name
99. Exit from Menus

选择2
 SYSTEM POWER CONTROL MENU

 1. Enable/Disable Unattended Start Mode:
      Currently Disabled

 2. Ring Indicate Power-On Menu
 3. Reboot/Restart Policy Setup Menu
 4. Power-On System
 5. Power-Off System
 6. Enable/Disable Fast System Boot:
      Currently Fast Boot

 7. Boot Mode Menu
98. Return to Previous Menu
99. Exit from Menus
然后再选择6,就可以更改为快起还是慢起了。

今天下午进行了微码升级,改为慢起后,已经可以起来了,具体问题是否解决还需要观察。


 yanbing 回复于:2004-05-09 23:53:48

谢谢楼主!!!


 stder 回复于:2004-05-17 05:44:59

通过升级微码后,该为slow boot,机器已经可以起来。但是遇到一个奇怪的问题,就是一拉起双机,大概10分钟后一套机器就会自动宕机,后来查看日志发现,是被其他的机器关掉的。后来检查配置,这套双机的clustreID与其他机器的ID重复了,所以启动后被别的机器给关掉了!!


 stder 回复于:2004-05-18 21:40:23

微码升级简单步骤:
### Procedimento para Update do Firmware ###

1. cd /tmp/fwupdate 
2. chmod +x 70286C4F.BIN 
3. ./70286C4F.BIN
4. sum 3R031021.img   ---目的:通过检查文件大小,确认升级软件正确的上传到server
         The output will look like this ----->;  30735  4907    3R031021.img 
         The checksum is ----->;  30735 
5. cd /usr/lpp/diagnostics/bin 
   ./update_flash -f /tmp/fwupdate/3R031021.img 
6. lscfg -vp | grep -p  Platform 

### Procedimento para Update do Firmware ###


 banker 回复于:2004-05-19 09:13:05

感谢


 aixnewer 回复于:2004-05-19 14:12:16

搂住讲得很详细,谢谢


 zlg88 回复于:2004-05-19 14:48:16

感谢楼主,写得这么详细,有因有果,最后还有如何升微码.


 cretelb 回复于:2005-03-18 14:11:08

这个案例很有借鉴作用,非常感谢!


 aixnewer 回复于:2005-03-18 14:19:02

感谢楼主得详细解答


 wozxz 回复于:2005-03-18 14:52:23

3Q!!!!!!


 leirenyuan 回复于:2005-03-18 15:38:10

真是好东西呀


 yiplee 回复于:2005-03-18 17:21:28

不定对不起楼主的一番苦心!UP!


 DB2_AIX 回复于:2005-03-20 11:41:48

八错,顶,支持,多好的人呀!


 king37cn 回复于:2005-03-21 18:05:21

非常感谢,很有帮助,这种文章多多益善,感谢CUer


 wangtaot 回复于:2005-05-19 10:57:06

这样有因有果的文章!好就一个字!顶!


 zhpeng01 回复于:2005-05-21 18:03:40

一般机器出了问题,特别是两个机器同时出了问题,就要想想可能不是机器表现出来的问题而是其他的问题,就像这个问题,一般机器应该升级微码到最新,杜绝类似问题出现。


 richarwong 回复于:2005-06-10 17:17:29

机器有奇怪问题就是把微码升到最新


 SmartFox365 回复于:2005-06-11 09:34:02

谢谢楼主啊,楼主真的一个有责任心的啊,把案例说的那么清楚,很好的。
想楼主学习。
UP


 smallants 回复于:2005-06-12 21:46:54

不错


 followmezhangxu 回复于:2006-08-17 16:18:47

我对楼主的敬业精神感到万分感动!


 prettycat2008 回复于:2006-11-08 20:45:05

好东西,支持


 mjxyx 回复于:2006-11-08 22:46:54

恩,非常不错。不过我想问一下,因为原来有应用跑的,如果万一升了薇码也起不来呢?怎办?大家有见过这种问题吗?


 wgao 回复于:2006-11-30 16:01:03

顶一个,以后要和这些机器打交道了


 promisures 回复于:2006-12-04 14:36:56

看了楼主的帖子,不由得精神为之一振,自觉七经八脉为之一畅,七窍倒也开了六窍半,自古英雄出少年,楼主年纪轻轻,就有经天纬地之才,定国安邦之智,古人云,卧龙凤雏得一而安天下,而今,天佑我大中华,沧海桑田5000年,中华神州平地一声雷,飞沙走石,大舞迷天,朦胧中,就见顶天立地一金甲天神立于天地间,这大英雄手持双斧,二目如电,一斧下去,混沌初开,二斧下去,女娲造人,三斧下去,小生倾倒.得此大英雄,实乃民之幸也,民之福也,怎不叫人喜极而泣.......古人有少年楼主说为证,少年之楼主如红日初升,其道大光;河出伏流,一泻汪洋;潜龙腾渊,鳞爪飞扬;乳虎啸谷,百兽震惶;鹰隼试翼,风尘吸张;奇花初胎,皇皇;干将发硎,有作其芒;天戴其苍,地履其黄;纵有千古,横有八荒;小生对楼主之仰慕如滔滔江水连绵不绝,海枯石烂,天崩地裂,永不变心.




原文链接:http://bbs.chinaunix.net/viewthread.php?tid=318793
转载请注明作者名及原文出处



收藏本页到: