服务器硬盘坏了怎么处理?
大数据时代,如何保证数据安全性,显得更加重要。从简单的定期备份,到备份系统、到灾备解决方案等等,那么如果服务器硬盘坏了怎么处理呢?当然为了确保数据安全。而不论何种方案,都必须将数据存放在底层的物理设备(硬盘、磁带等)。
服务器硬盘坏了会有一系列的表现:
1、故障提示。也就是我们常说的,硬盘自我监测、分析错误报告。在其控制的磁头、磁盘、电路等部件发生与预存的安全值发生冲突的时候,就会自动发生警告信息。而当出现这个故障提示的时候,我们就改引以为戒,尽快分析和处理。
2、硬盘无法识别。启动时,时不时的显示硬盘无法识别,或者即便能识别,但是系统显示无法显示硬盘,这就是物理故障的前兆。这个时候,我们就需要对重要数据进行转移,而后进行检测维修。
3、系统运行出错。服务器运行过程中,不断出现程序错误的状况,而且磁盘扫描问题,停滞、甚至死机。这个时候,就代表硬盘发生故障了,当然了,也可能是因为安装系统故障的原因,在我们排除软件问题后,就能确定是硬盘故障,需要进行检修。
4、运行报错。扫描磁盘,发现错误,甚至显示出现坏道。这个时候则表示硬盘部件问题,出现了坏道,我们需要将其进行隔离,保证正常使用。
5、初始化死机。初始化即死机,虽然不排除其他部件发生问题的可能性,比如内存问题、风扇问题、系统中毒等等,但是,最可能还是因为硬盘故障的问题,需要进行相关分析。
服务器硬盘坏了的故障定位和分析
1、名词解释
- DSA : IBM 日志收集工具
- DSET :DELL日志收集工具
- TTY :硬盘日志收集工具
- Slot Number :服务器硬盘槽位号,dell/IBM服务器槽位号从O开始
- Media Error Count:硬盘物理错误数
- Other Error Count:硬盘逻辑错误数
- Predictive Failure Count:预告警数
- Raw Size:磁盘容量
- PD Type: 磁盘类型(SAS,STAT)
- Firmware state:硬盘状态
- RAID Level :阵列等级
- State :阵列状态
2、收集日志及阵列穿孔
不仅仅是硬盘故障的时候需要收集日志,在服务器诊断中,线索往往是扑所迷离的,凭借经验或者猜测,无法正确地判断设备故障原因,排除故障,收集日志提交给售后工程师,可以快速和有效的缩小问题范围,精准定位故障点。
服务器出现故障后,必须一步步检测解决,走捷径可能会付出巨大的代价!收集日志可以大大减少数据丢失风险,避免多次上门维修,反复沟通造成的时间和精力浪费。当然过保的机器,就需要我们自己学会查看日志文件了。
DSA日志
DSA日志是IBM机器保修时候,必要的日志,他可以收集所有的硬件健康状态日志,这里不多做介绍,只要一个文件在系统里执行完成后可以顺利收到日志
DSET日志
DSET日志是DELL机器保修时候,必要的日志,功能如同DSA日志,DSET日志可以收集所有硬件健康状态日志,还可以收集到硬件的部件号,售后可以根据部件号来确认故障配件是否属于本机原配,若不是原配配件,则需要另外提供采购的配件订单号。
TTY日志
TTY日志是硬盘故障时,硬盘故障最怕的就是出现阵列穿孔,收集TTY日志,可以直观的看出阵列是否出现了穿孔(关键字:Puncturing bad block),自己可以收集TTY日志并查看。
#unzip MegaCli8.02.21forLinux.zip
#ll
-rw-r--r-- 1 root root 1588725 May 17 2011 Lib_Utils-1.00-09.noarch.rpm
-rw-r--r-- 1 root root 1272097 Oct 24 2011 MegaCli-8.02.21-1.noarch.rpm
-rw-r--r-- 1 root root 2848229 Sep 8 17:12 MegaCli8.02.21forLinux.zip
-r--r--r-- 1 root root 2683 Oct 24 2011 readme.txt
-rw-r--r-- 1 root root 7404 Apr 13 2012 Run-Linux-PERC6-v1.0.sh
#chmod +x Run-Linux-PERC6-v1.0.sh
#./Run-Linux-PERC6-v1.0.sh
日志存放在当前目录下,名称为PERCLINUX.tgz
3、业务定位
根据故障定位分析,你还是不能直接更换故障硬盘,因为换硬盘都会存在风险的,所以,在做所有的故障硬盘更换之前,都必须确认好业务,特别是在RAID0的时候!RAID0的硬盘出现故障,只要数据有备份,业务确认可以更换,那就可以直接处理
常见的服务器硬盘坏了的原因和处理方式
1.硬盘系统故障
服务器硬盘发生系统故障主要表现的方式为中断,跳出,停滞等现象。这些的故障发生也不全部都是因为硬盘的问题,也有可能是系统的故障。我们在排除系统故障以后,就需要对硬盘进行检修了。
2.硬盘物理故障
我们在服务器托管使用过程中,硬盘故障一般表现为无法识别硬盘里面的存储数据,或者是无法读取数据,这就导致用户无法使用硬盘。我们在遇到这种问题的时候,处理办法就是先对数据进行转移,之后对硬盘进行检查维修。
3.硬盘运行故障
硬盘的运行故障一般都是很容易发现的,主要表现在扫描磁盘的时候发现错误。这种情况一般表现为坏道发生情况,我们就需要对硬盘进行隔离,保障硬盘的正常使用。
坏道分布情况
1、少量坏道,可以尝试有软件修复
2、大量坏道,且集中,那可以专门分个区,然后把分区隐藏,避免坏道扩散。
3、坏道多,分布均匀,直接换硬盘。
好了,以上就是关于“服务器硬盘坏了怎么处理”的相关内容,你可以通过以上方式排查,也可以使用TestDisk、EaseUS Partition Master Free、WinDirStat等常用的磁盘转换和数据修复工具来解决。