扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
虽然PC服务器的性能质量要远远高于PC机,但是谁也不能保证你购置的PC服务器就不出问题,这不,在我们购置的数台PC服务器中先后就有3台出现了问题,其中有两台是同型号的,算起来就是两种故障,现象吗就是PC服务器自动宕机重启,每种故障的查找解决均花费了半年多时间。为此,我们想通过总结我们解决问题的过程和经验,提供给大家,在设备出现类似问题时能借鉴我们的经验,尽快分析查找到原因所在,解决问题。
背景:我公司在2002年初开发完成"中燃服务保障体系计算机管理系统"的业务应用平台,并投入使用,这是一套涉及中燃所有业务的完整的进销存计算机管理软件,系统采用B/A/S三层结构,用户通过浏览器访问应用服务器,通过应用服务器再提交访问数据库服务器,中燃总部和下属16家分公司通过局域网和Internet接入方式使用该系统,系统运行状况良好。
其中应用服务器也作为公司Web网站服务器对外提供网站信息发布服务,系统环境为:Windows NT 4.0、Websphere 3.5、双CPUX350服务器。另外我们还配置了邮件服务器,系统环境为:Windows NT 4.0、Netscape message Server 5.0、X200服务器。还有一台X200服务器用于财务管理,系统环境为:Windows NT 4.0、用友帐务系统8.0等。
问题一:
1)出现问题:用于邮件系统的X200服务器在使用一年多时间后,系统开始出现频繁重新启动。出现问题后,我们进行了系统日志检查,显示的是意外原因造成的系统重启,初期我们怀疑是软件问题,或者病毒、黑客攻击造成的?或者用户负荷太大造成的?我们在查找原因的同时进行了多方面的测试,包括在客户机上收发邮件,这时一发送大邮件,系统就重启,此时我们也开始怀疑是邮件系统程序与操作系统冲突造成的,为尽快找到问题原因,我们以自己查找问题出处为主,也把问题反映给了项目开发集成商和硬件供应商。
2)找到原因:问题持续了数月,在找不到准确故障记录的情况下,我们开始怀疑硬件问题,比如说由于服务器内灰尘造成电路板线路短路等等,为此,我们在关机情况下打开机盖,进行内部清理,灰尘并不是很大,在清扫过程中突然发现主板上的电容顶端有异常突起,并在侧板上发现喷射物,可以肯定这就是问题所在了。
我们通知了系统集成商,并与设备生产厂商进行了保修联系,很快厂商带来了新的主机板,更换后我们又进行了一段时间的测试,系统完全恢复正常。
根据厂家维修人员的解释,这批服务器的主板普遍存在这个问题,是因为OEM供应的主板电容材质不过关引起的,在工作负荷不大的情况下还能工作,负荷一大,服务器就频繁重新启动。
几个月后,财务使用的X200服务器也出现了同样的问题--频繁重新启动现象,有了上一台设备的检修经验,我们打开主机箱查看,果然是同一个原因,联系厂商后问题很快得到解决。
问题二:
1)出现问题:为了提高"中燃服务保障体系计算机管理系统"的运行速度和保证数据安全性,2003年8月我们对应用服务器进行了全面扩容升级:由双CPU的X350服务器升级为四CPU的X360服务器,其他资源配置也大幅提高,为数据库服务器增加了磁盘阵列和双机热备--群集系统,操作系统由原来的Windows NT4.0升级为Windows 2000 Server。
新设备、新系统安装运行后,web服务器开始出现不定期的宕机即出现蓝屏并自动重启现象,重启时间周期基本是1-2天1次或数次。有了前次解决同样问题的经验,我们把目标聚集在硬件上,我们把收集到的蓝屏信息和日志信息先后发给项目开发集成商、硬件经销商和厂家,希望能从日志等信息中找到问题原因,但一直没有查到问题所在。由于我们的应用是24小时运转,设备在白天工作时间是不能停机的。这一现象困扰了我们多时,也严重影响了应用系统的正常使用,下属各公司反响强烈,我们更是心急如焚,因此"解决web服务器自动宕机难题"成为我们工作中的重中之重,我们开始与开发集成商、经销商和设备厂商联系,从多方面分析原因,要全力以赴尽快找到问题所在,排除故障,做好相应的防护措施,保证应用系统的稳定运行。
2)查找原因:由于该服务器的重要性程度较高,因此,我们对故障可能发生的原因进行了仔细的分析,应该说,造成计算机服务器设备宕机重启的原因很多,在硬件上,独立的板卡和模块有:主机板、CPU、电源、内存条、硬盘、SICS 卡、RAID卡、远程控制卡等,还有可能是板卡中BIOS版本太低造成的,需要进行版本升级,包括主板、RAID卡、远程控制卡等的BIOS。
服务器的工作还要依靠操作系统、应用系统平台和各层次应用程序,它们也有可能是引起服务器设备的不稳定因素。再有各部件、各系统程序的参数设置等配合协调性能也可能会影响整个系统的正常运转,因此,在独立测试各部件、各程序均正常的情况下,还需要排除相互协调工作时的冲突因素。
根据我们以往的经验,这种故障的出现80%被怀疑是硬件故障所致。我们与设备厂商联系,采用排除法对设备板卡进行了测试和BIOS升级,为了不影响工作期间应用系统的正常使用,利用下班后时间先后做过内存调整测试、主板更换、升级BIOS、拔卸远程管理卡测试等工作,并使用厂商提供的测试软件对所有软硬件进行了测试信息收集,并反馈给他们,同时设备生产厂商也多次派人来我公司进行检测,但问题并没有实质性进展。在2003年的10月后至2004年的1月期间,我们一直把问题的焦点放在硬件上,致力于硬件的故障点查找,然而,未解决的故障仍一如既往,继续影响我们应用系统的正常运行。
为从整体上对服务器设备进行测试排除,经与设备厂商艰苦协商后,他们同意提供一台备用服务器设备作替换,继续使用我们原有的硬盘、RAID卡等配件,保证我们应用系统的持续运转,将我们原来的服务器带回去测试,几天下来,替换的备机又出现了不定期的恼人的宕机重启现象,而我们的服务器在厂家的测试中则一直运转正常,至此,我们考虑到该问题可能不是硬件原因引起的,而有可能是系统程序和应用程序的冲突原因造成的,我们开始将查找问题的重点转移到系统及应用方面,包括操作系统和应用平台,特别是websphere应用平台。
3)找到主因:我们的应用系统在设备升级以前使用是完全正常的,设备升级后才出现了问题,为此我们怀疑Windows 2000 Server和Websphere两个系统之间可能会有冲突,我们同微软和IBM进行了联系咨询,了解了软件系统方面的相关问题,经与IBM的技术支持工程师反复探究,并到Websphere技术支持网站浏览,问题有了突破性进展,结合蓝屏信息我们将故障原因定位于Websphere中http server的配置文件上,最终查出是http server的配置文件中的apfa动态链接库和Windows 2000 Server有冲突,需要对一些参数进行必要的设置和调整。
首先,我们向设备生产厂商通报了情况,替换回我们原来的服务器设备,按照IBM的技术支持工程师的提示,我们对Websphere系统参数进行了进一步检查,确定了需要调整的有关参数。随后,我们进行了配置设置,在应用平台配置中注释掉其中关于apfa动态链接库的语句,修改完后,我们重新启动了所有应用服务,经过几天的观察,至此问题终于拨开乌云见天日,困扰我们多时的故障最终得以解决,此后系统再没有出现重启现象,应用系统运行稳定。
经验总结:
在这几起PC服务器故障的排除过程中,虽然感觉很疲劳,但通过这样的实战,使我们自身的技术能力和解决问题的能力有了很大的提高,我们还体会到,要做好技术服务必须要和应用技术的发展保持同步,要经常上技术网站了解自己应用系统的升级、Bug补丁等情况,进行必要的升级,提高系统的性能和可靠性。
出现问题时不要急于定位问题的症结,要认真仔细分析出现问题的前因后果,积极与开发集成商、系统软件厂商、硬件设备厂商联系,通过与他们的沟通,了解他们产品的变化、升级和应用环境的要求,进行全面的分析判断。我们碰到的这两种PC服务器故障,现象是完全一样的,可是造成故障的原因却是一点不相干,一个是硬件原因,而另一个则是由于软件之间的冲突造成的。
出现问题时不能完全依赖他人,故障是出在我们自己这里,我们知道它是在什么情况下发生的,周围的应用环境是怎样的,我们要结合自己的的实际情况,借鉴别人的经验进行综合分析,判断和排除问题所在。外人可以给你提供建议,很难直接指出问题结症,我们这三次PC服务器故障就是通过借鉴别人的经验,通过自己的分析比较找到源头的。
此外,要做好系统和设备的管理维护工作,就要加强与各方面的联系沟通,学习好的工作经验和方法,结合我们的实际应用,做好应用系统运行状况监控,进一步优化完善系统设置,尽可能将会出现的问题消灭在萌芽状态,使我们的应用系统充分发挥作用。(责任编辑:刘燕之)
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者