06.14.08

作技术,什么都可能发生

Posted in Oracle管理 at 3:31 am by David.Guo

最近的怪事蛮多。

首先是那天我晚班,下午去公司,同事说下午2点左右地震了,我靠,那可是6月12日,难道是汶川地震1个月的纪念,再问下去,原来是那个时候一台伟大的DS8300可能是站着太累了,居然在机房去睡了会,1.4吨的家伙,这么一睡,那动作和地震差不多。晚饭后去机房看望了下这哥们,嗯,这是第一次我有意识的去看8300,结果还是刚睡醒的,这种看8300倒地的机会还真不多,可惜我去看望的时候8300已经站起来了,不过没人敢给它上电了。有多少人见过8300倒地呀?

今天晚上在家值班的时候,收到电话,晚上要重新起停一个rac库。不是很重要的系统,所以服务器也不是很好,IBM P560Q而已,也没怎么在意,这种活已经习惯了,都不会紧张了,先把库拉掉,很正常,然后IBM的哥们在机房给加内存,装好了,HA起来,正常,然后我拉库。拉呀,第一个节点起来正常,拉第二个节点呗,启动到nomount就不动了,检查alert.log

at Jun 14 02:46:52 2008
lmon registered with NM - instance id 2 (internal mem no 1)
Sat Jun 14 02:52:41 2008
Reconfiguration started (old inc 0, new inc 1)
List of nodes:
1

Global Resource Directory frozen
one node partition
Communication channels reestablished
Master broadcasted resource hash value bitmaps
Non-local Process blocks cleaned out
Resources and enqueues cleaned out
Resources remastered 0
0 GCS shadows traversed, 0 cancelled, 0 closed
0 GCS resources traversed, 0 cancelled
set master node info
Submitted all remote-enqueue requests
Update rdomain variables
Dwn-cvts replayed, VALBLKs dubious
All grantable enqueues granted
0 GCS shadows traversed, 0 replayed, 0 unopened
Submitted all GCS remote-cache requests
0 write requests issued in 0 GCS resources
0 PIs marked suspect, 0 flush PI msgs

也没啥好看的,把先拉起来的节点down掉,2号节点就立刻起来了。这问题好像以前见过,我记得好像是如果参数cluster_interconnects不对的话,会有这种问题,嗯,那就整呗,这个参数也正常,每个instance单独起来都会对。难道是,莫非是见鬼了,ok,再想想,似乎两个主机交换的hacmp的网络会引起这种问题,先检查tty0,正常,再检查网卡的参数MTU,也正常。

无论如何,我一定坚信,这个是HA的问题或者是网络的问题,明显资源有问题。再看看metalink,发现也是这些东西,但是metalink说的这些都没有问题的,继续折磨IBM的哥们,让他们去查网络,终于,10分钟后,有好消息了,RAC的网络光纤出现了问题,我靠,不就是下个电吗,有这么麻烦的加内存动的是前面,又不是后面,光纤,你咋坏了列。赶紧的兄弟们换光纤线,重新拉库。正常了。

不是8300倒地,就是光纤不行,是我该去烧香,还是IBM的哥们该去了列?

Leave a Comment