下午4点回到广州,打扫完卫生,洗完澡,9点了;习惯性检查系统有没有什么异常,一看不要紧,发现有个平台的数据库群集已经挂掉,远程找问题,查资料,折腾了1个小时搞不定,于是抓技术资源,11点多2人奔机房,检查硬件,检查软件,又是2个小时,还是没搞定,最后死马当活马医,重启磁盘阵列(个人认为这个动作风险较高,谁知道又会......),但是问题就是这样奇迹般的解决了。

TNND!


---故障回顾---

两台Dell PE6850安装Windows 2003 R2系统和一台IBM DS4300组成SQL Server群集,检查时发现群集管理器显示群集一直是正在切换状态,一直是沙漏图标,数据库服务无法启动,重启服务器后发现群集服务Cluster Service无法启动,事件查看器中有以下日志:
Event Type: Error
Event Source: ClusSvc
Event Category: Startup/Shutdown
Event ID: 1009
Date: 2007-2-25
Time: 0:15:53
User: N/A
Computer: IAMS-DB2-1
Description:
Cluster service could not join an existing server cluster and could not form a new server cluster. Cluster service has terminated.


检查%SYSTEMROOT%\Cluster\Cluster.log发现有以下错误记录:
...
ERR Physical Disk <Disk Q:>: [DiskArb] Reserve completed, status 170.
...
ERR [FM] FmGetQuorumResource failed, error 170.
ERR [INIT] ClusterForm: Could not get quorum resource. No fixup attempted.
Status = 5086
INFO [INIT] Cleaning up failed form attempt.
ERR [INIT] Failed to form cluster, status 5086.
...
ERR [CS] Service Stopped. exit code = 5086
ERR [RM] Active Resource = 00000000
ERR [RM] Resource State is 1, ""
...


重启单台服务器无效;
关闭一台服务器,单独启动另外一台服务器,无效;
用错误编号google搜索,按照一些文章指引,做了组策略本地策略的调整,做了一些配置修改,无效;
关闭了Cluster Disk Driver,重启服务器之后可以看到阵列上的各个分区,读取数据正常,再加上检查了硬件和光纤连线,无告警和异常,所以一直认为不是硬件问题;

最后还是想到日志中主要描述的问题是仲裁资源无法获取,所以还是想从共享磁盘下手,最后不得已重启磁盘阵列,结果发现之后群集服务就正常了。

此次问题可能是由于群集在切换中出现某些问题(为什么会自动切换了,暂时没发现问题),导致服务器上安装的IBM RDAC软件与磁盘阵列控制器通讯发生问题,造成控制器某些状态的挂死,重启导致群集服务无法正常获取仲裁磁盘数据,也就无法启动了。
标签:
发表评论   请注意:本站已经启用评论审核机制,审核通过才能显示!
表情
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
打开HTML
打开UBB
打开表情
隐藏
昵称 *   
网址   电邮   [注册]
               

验证码 不区分大小写