现在提到x86服务器平台的CPU,可能很多人都很熟悉Intel和AMD的产品,从之前的至强5400到现在主流的至强5600和至强7500,还有AMD强大的12核X86处理器“Magny-Cours”(马尼库尔)等。同时,服务器的另外两个核心在CPU的基础上发挥着重要的作用。具有ECC的内存、ChipKill、热插拔技术、防止异常数据丢失的RAID硬盘和其他组件一起创建了一个坚如磐石的X86服务器。
但是X86服务器和桌面有很多相似之处,从前期部署、中期维护到后期管理都是如此,所以X86服务器虽然有成熟稳定的架构体系,但也难免会有“打击”。尤其是企业负载应用广泛,遇到的故障很常见。和你分享三大部件的故障,可以有效防止你出现在未来的商业平台上。
服务器——CPU
危害程度:
故障回放:有做过测试的朋友知道,一个基于英特尔至强的服务器,开机没有显示,系统指示灯疯狂闪烁。最直接的怀疑就是CPU和主板接触不良,但是换成多路服务器主板上的另一个CPU插槽还是没有反应。
解决方法:在这种情况下,经过测量,CPU电压异常。原来是CPU的VRM(电压调节模块)出现了故障,无法在主板上进行DC电路转换,无法为CPU提供稳定的工作电压。到目前为止,只能更换CPU。
我觉得这个故障是致命的,CPU的损坏会直接导致整个服务器不可用,但是CPU本身的安全性很高,故障率极低。所以在日常维护任务中,CPU损坏导致的服务中断很少,其危害程度也不会太高。如果是多路服务器,就不用担心CPU损坏导致服务器停机。
平台的另外两个核心是内存和硬盘。至于内存的选择,服务器内存和普通桌面内存还是有一些区别的。仔细观察过服务器内存的用户会发现,相比普通内存的单面8粒设计,服务器内存通常单面有9个芯片,也就是我们常说的ECC内存。
读取服务器性能——内存
危害程度:
故障回放:之前在一个有两个2GB内存的服务器上,由于自身承载的业务太多,服务器的数据处理速度越来越慢,于是通过增加两个同型号的内存条来升级服务器。这些内存全部插入主板后,系统检测到只有6GB,另外2GB内存神秘消失。反复插拔新内存仍然无法正常检测。
解决方法:根据服务器产品官网介绍,出现这种情况是因为这台服务器的内存插槽是成对使用的,1-4,2-5,3-6,7-10,8-11,9-12,新内存插入插槽2和3,无法成对。自然只能检测到一个内存。当内存插入插槽5时,成功检测到8GB内存。
可以看出,服务器内存的优势不仅体现在性能上,还体现在容错上,目的是为整个平台提供一个高稳定的环境。前面提到的内存中使用的ECC(错误检查和纠正)技术、寄存器和Chipkill都是为了提高内存的稳定性,让每个内存条和插槽能够更好的整合。
硬盘作为服务器的存储终端,其稳定工作关系到企业数据的安全。服务器的硬盘是核心的数据仓库,所有的软件和数据都存储在这里,所以服务器的硬盘对可靠性和稳定性的要求非常高。
另外,服务器一般需要24*7小时运行,其硬盘也需要24小时运行。因此,服务器硬盘对稳定性和可靠性的要求很高。服务器市场使用的硬盘主要有三种,分别是SATA硬盘、SCSI硬盘和SAS硬盘,其中SATA硬盘主要用于低端服务器领域,SCSI和SAS硬盘面向中高端服务器。
服务器核心——硬盘
危害程度:
失败回放:每台服务器都会崩溃,重启都没有警告。如果经常发生,会被数据中心的it运维人员检测到硬盘工作时间过长,导致物理坏道。所以,立即备份更换硬盘,将硬盘中的数据导出,是最好的解决方案。因此,在数据传输的过程中,I/O错误不断出现,这直接导致数据传输非常缓慢,并且丢失了大量重要数据。
解决方案:在大多数情况下,磁头或磁盘有错误。如果硬盘拆机时有划痕,但面积不大,专业公司通过更换磁头可以恢复95%以上的数据,这是比较幸运的。
但是,通常说是防患于未然。如果及时发现这个故障,应该在磁盘发生更多物理损坏之前解决。一旦磁盘严重损坏,数据将永久丢失。为了避免这种情况,建议执行以下操作:
在硬盘选择上,应选用专业的服务器硬盘,如:平均无故障时间超过160万小时,年故障率低于0.55%,抗震方面抗震超过300G/2ms等。另外要应用相关的服务器RAID阵列技术,比如RAID5,至少由三块硬盘组成。当数据信息被写入硬盘时,检查信息也被写入。当一个硬盘出现时,
以上三个组件的故障只是简单介绍一下。其实服务器故障不止这几点,还有电源、管理模块、网卡类似的问题。希望用户能够在应用中积累更多的经验,尽量减少故障的发生率,提供一个稳定灵活的IT应用环境。