服务器端故障(服务器故障有哪些)-扬州城市论坛

现在提到x86服务器平台的CPU，可能很多人都很熟悉Intel和AMD的产品，从之前的至强5400到现在主流的至强5600和至强7500，还有AMD强大的12核X86处理器“Magny-Cours”(马尼库尔)等。同时，服务器的另外两个核心在CPU的基础上发挥着重要的作用。具有ECC的内存、ChipKill、热插拔技术、防止异常数据丢失的RAID硬盘和其他组件一起创建了一个坚如磐石的X86服务器。

但是X86服务器和桌面有很多相似之处，从前期部署、中期维护到后期管理都是如此，所以X86服务器虽然有成熟稳定的架构体系，但也难免会有“打击”。尤其是企业负载应用广泛，遇到的故障很常见。和你分享三大部件的故障，可以有效防止你出现在未来的商业平台上。

服务器——CPU

危害程度：

故障回放：有做过测试的朋友知道，一个基于英特尔至强的服务器，开机没有显示，系统指示灯疯狂闪烁。最直接的怀疑就是CPU和主板接触不良，但是换成多路服务器主板上的另一个CPU插槽还是没有反应。

解决方法：在这种情况下，经过测量，CPU电压异常。原来是CPU的VRM(电压调节模块)出现了故障，无法在主板上进行DC电路转换，无法为CPU提供稳定的工作电压。到目前为止，只能更换CPU。

我觉得这个故障是致命的，CPU的损坏会直接导致整个服务器不可用，但是CPU本身的安全性很高，故障率极低。所以在日常维护任务中，CPU损坏导致的服务中断很少，其危害程度也不会太高。如果是多路服务器，就不用担心CPU损坏导致服务器停机。

平台的另外两个核心是内存和硬盘。至于内存的选择，服务器内存和普通桌面内存还是有一些区别的。仔细观察过服务器内存的用户会发现，相比普通内存的单面8粒设计，服务器内存通常单面有9个芯片，也就是我们常说的ECC内存。

读取服务器性能——内存

危害程度：

故障回放：之前在一个有两个2GB内存的服务器上，由于自身承载的业务太多，服务器的数据处理速度越来越慢，于是通过增加两个同型号的内存条来升级服务器。这些内存全部插入主板后，系统检测到只有6GB，另外2GB内存神秘消失。反复插拔新内存仍然无法正常检测。

解决方法：根据服务器产品官网介绍，出现这种情况是因为这台服务器的内存插槽是成对使用的，1-4，2-5，3-6，7-10，8-11，9-12，新内存插入插槽2和3，无法成对。自然只能检测到一个内存。当内存插入插槽5时，成功检测到8GB内存。

可以看出，服务器内存的优势不仅体现在性能上，还体现在容错上，目的是为整个平台提供一个高稳定的环境。前面提到的内存中使用的ECC(错误检查和纠正)技术、寄存器和Chipkill都是为了提高内存的稳定性，让每个内存条和插槽能够更好的整合。

硬盘作为服务器的存储终端，其稳定工作关系到企业数据的安全。服务器的硬盘是核心的数据仓库，所有的软件和数据都存储在这里，所以服务器的硬盘对可靠性和稳定性的要求非常高。

另外，服务器一般需要24*7小时运行，其硬盘也需要24小时运行。因此，服务器硬盘对稳定性和可靠性的要求很高。服务器市场使用的硬盘主要有三种，分别是SATA硬盘、SCSI硬盘和SAS硬盘，其中SATA硬盘主要用于低端服务器领域，SCSI和SAS硬盘面向中高端服务器。

服务器核心——硬盘

危害程度：

失败回放：每台服务器都会崩溃，重启都没有警告。如果经常发生，会被数据中心的it运维人员检测到硬盘工作时间过长，导致物理坏道。所以，立即备份更换硬盘，将硬盘中的数据导出，是最好的解决方案。因此，在数据传输的过程中，I/O错误不断出现，这直接导致数据传输非常缓慢，并且丢失了大量重要数据。

解决方案：在大多数情况下，磁头或磁盘有错误。如果硬盘拆机时有划痕，但面积不大，专业公司通过更换磁头可以恢复95%以上的数据，这是比较幸运的。

但是，通常说是防患于未然。如果及时发现这个故障，应该在磁盘发生更多物理损坏之前解决。一旦磁盘严重损坏，数据将永久丢失。为了避免这种情况，建议执行以下操作：

在硬盘选择上，应选用专业的服务器硬盘，如：平均无故障时间超过160万小时，年故障率低于0.55%，抗震方面抗震超过300G/2ms等。另外要应用相关的服务器RAID阵列技术，比如RAID5，至少由三块硬盘组成。当数据信息被写入硬盘时，检查信息也被写入。当一个硬盘出现时，

以上三个组件的故障只是简单介绍一下。其实服务器故障不止这几点，还有电源、管理模块、网卡类似的问题。希望用户能够在应用中积累更多的经验，尽量减少故障的发生率，提供一个稳定灵活的IT应用环境。

服务器端故障(服务器故障有哪些)

相关文章