科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道服务器当机了 事前事后该怎么处理?

服务器当机了 事前事后该怎么处理?

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

在本文中,笔者将从当机的原因入手,尽量系统和全面的分析当机出现的原因,并在文章末尾给出当机的解决办法。

2006年12月10日

关键字: 硬盘 内存 兼容 CPU 当机 服务器

  • 评论
  • 分享微博
  • 分享邮件

ZDNetChina服务器站 x86技巧

    当机,是IT人士常用的术语,在更多的计算机应用者嘴里更多的表达为死机,当机是令IT管理和应用者都颇为烦心的事情。

  对于普通家庭应用的当机,最多是不到最高级别的数据无法完整恢复,而如果一台服务器出现了当机,可能导致机要文件和高等级数据丢失的危险,这可是非常遗憾的事情了。

  当机常见的表象多为操作界面静止无响应或“蓝屏”,操作系统无响应,软件运行无响应,鼠标、键盘无响应,硬盘指示灯恒亮不闪烁。尽管造成死机的原因是多方面的,但是万变不离其宗,其原因总也脱离不了硬件与软件(包括主机系统、操作系统、应用软件)两方面。

  在本文中,笔者将从当机的原因入手,尽量系统和全面的分析当机出现的原因,并在文章末尾给出当机的解决办法。

1、由硬件故障引起的服务器当机

  硬件其实脱不了这几大件:CPU、内存、硬盘、电源、散热系统,而最常见的硬件引起的当机原因则是散热系统故障。

1)散热不良

    散热不良是大家碰到的导致服务器当机最普遍的原因,CPU、硬盘、电源在工作中发热量非常大,因此保持良好的通风状况非常重要。CPU相当于人的大脑,对于服务器来说,它要对服务器内硬件软件的各种请求进行并发多线程处理,当并发处理要求突然增多时,CPU的热量就好象人脑飞速思考时一样,会出现“脑热”的症状,而硬盘I/O的吞吐量也将向额定量靠近,由此带来的功率增高,必然导致热量的增加;同时,功率的增加又对电源的支持产生了很大的压力,必然也会带来电源高热量的产生。当运算量超过服务器运算负荷之后,这三个“高热生产大户”短时间内的热量突然“增产”,很可能导致服务器的死机现象。

  另外,在一些进行视频或图形存储与调用的服务器中,显卡和显示器设备也是发热量非常高的设备,如果散热设计的不好,当调用比较多时,也会产生当机现象。

  解决的办法是,在进行服务器选购时,尽量选择发热量较小的CPU,在系统设计时设置可以实现负载动态平衡的运算系统,选择散热性能良好的服务器准系统。

2)硬件之间或软硬件之间不兼容

  在硬件之间,如果主板、CPU、内存由于内外频相互不匹配,有可能在装配之初由于处理并发事件较少,还可以正常运行,但是当并发数上升到一定高度时,设备之间的匹配问题导致的硬件系统不稳定就凸显,这样产生的服务器当机事件发生几率也相应提高。

  在硬件与软件之间,如硬件与需要进行图象处理的软件之间,有可能存在兼容性问题,如果不能达到兼容,整个系统的运行也不会稳定,这样产生的当机事件发生几率也非常高。

  服务器配件之间的不兼容问题一般出在朋友们自己DIY的服务器上,软硬件兼容问题主要出在用户对于硬件与应用之间的衔接不完善的时候。解决以上问题的方法是在选购硬件设备时,以需要采用的具体系统实现为基础,全面的考虑全新硬件之间、需要升级的配件与新配件之间、软件与硬件之间的兼容性问题,以构建一个稳定的系统。

3)CPU故障

  CPU引起当机的故障主要有以上提到的兼容问题、超频引起的处理性能不稳定、一些JS为获更多利润通过软件改写频率引起的性能不稳。

  兼容性问题在上文已提到,超频和通过软件改写频率基本是相同的性质,只不过进行这项操作的人群不同,一个是服务器发烧友,一个是服务器配件代理商。

  改动频率引起CPU不稳定从而导致运行中当机的现象比较少,主要出在一些DIY市场领域。解决改频引起的问题很简单,服务器本身要求的就是系统的稳定运行,没有特殊爱好,没有特别专业的知识,不要随便改动。

4)内存故障

  内存引起当机的故障主要有前文提到的兼容问题、内存条松动、内存容量不足、内存质量问题、内存资源冲突。

  内存条松动,基本不会出现在品牌服务器中,因为一般服务器出厂前都会经过专业技术人员全面的系统检测;内存条松动的现象主要出在DIY服务器市场或操作员对品牌服务器进行升级时的疏忽导致的内存条没有插牢。

  内存容量不足主要是由于服务器同一时间处理并发太多,占用太多的内存资源,导致服务器处理响应不过来,产生当机。

  内存质量问题主要是内存芯片出厂前的芯片故障或内存厂商装配时的虚焊等。

  内存资源冲突的问题主要是在运行操作系统或应用软件时,由于系统线程抢占资源或软件应用程序争抢内存地址而产生的内存资源冲突,从而导致服务器死机的现象。

  解决的方法只能是采购员与操作员在进行装配和升级、测试等工作时,持严谨的技术态度,认真细致的检查硬件的每个环节;对于内存资源冲突的问题,主要通过选用冗余支持的内存和在并发高峰期来临前进行内存清理等工作来避免。

5)硬盘故障

  硬盘引起当机的故障主要是由于使用时间长久、读写次数过多引起了磁道、扇区损坏的故障,再加上硬盘各部位的老化、磁盘碎片与垃圾文件过多等。

  在一些有实力的公司,每隔两三年,会对正运行的服务器磁盘进行更新换代,将旧硬盘数据向新硬盘实现迁移,并将旧硬盘替换到一些测试或者办公备用等地方,最大限度的避免了硬盘故障引起的当机现象。大家可以以此为参考,参照成本预算等因素,尽量在磁盘损坏之前进行更新换代,避免引起重要数据的损毁。

  磁盘碎片与垃圾文件在每时每刻的运行中都会产生,由于磁盘碎片过多或垃圾文件过多,造成可用空间资源过少时,也可能会在服务器多程序运行时当机。解决的办法是定期对磁盘碎片与垃圾文件进行清理。

6)电源故障

  电源引起当机的故障主要是风扇坏掉或电子器件与线路损坏等。

  电源由于风扇或其中电子器件与线路故障引起的当机,除了需要进行防尘处理外,基本没什么特殊的防范准则,因为随机的偶然性,大多数情况下只能在当机出现的时候,拿备用电源替换,尽量减少当机引起的运行时间损耗的问题。

7)操作不当

  一般情况下,机房的空间都是尽量有效利用的。打个比方,如果需要对机柜内的一部服务器拆开进行硬件升级,在它上面还码放了几部机架式服务器,为了不中断上面几部服务器的运行,可能需要二至三个操作人员协作才能将上面几部服务器托起,并把需升级的服务器拖出。这个过程看起来很简单,不过如果没有什么移机经验,冒失地跑上去拖拽抬放,很可能就导致上面几部服务器内硬盘部件因振动而与总线接触不良,从而导致当机。

  另外,主板故障引起的服务器当机基本都需要返厂修理,与电源故障原由基本相同,其处理方法在次不再赘述。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章