信息系统设施的故障诊断步骤与修复方法
1、一“硬件故障”
⭕检查办法
信息系统的硬件通常包含:CPU、内存、存储器、I/O、电源、风扇等等。
(一般比较容易损坏的都是:电源、风扇、内存、存储器 之类的。)
但不管什么硬件发生故障,我们分以下几个步骤来检查和恢复:
①:首先要检查的是硬件指示灯。也就是面板上的指示灯。这些指示灯可以直观反映我们硬件的故障现象
绿灯:代表正常;
黄灯:代表告警;
红灯:代表故障;
(具体代表意思各个厂家准确的可以查找原厂产品说明书)
如果发现黄灯、红灯。我们都需要立即关注。很可能已经出现隐患或者故障。
②:指示灯无法检查出来的,我们可以通过硬件提供的管理接口来诊断。
比如,服务器的IPMI管理接口(每个厂家都有微电脑做硬件管理,但每个厂家接口可能不同,比如HP的ILO口),通过登录该接口去查看硬件状态。里面会非常直观的反应出硬件是否存在故障。
③:如果操作系统可以可以启动,我们还可以通过操作系统的硬件管理来查看硬件状态。(比如windows的设备管理器,可以看到硬件的情况),同时,也可以通过windows日志来查看系统收到了哪些报错信息,从而来判断定位问题出在那里。
④:以上方法都无法判断,硬件故障还有一个离线最终办法。也就是“最小系统替换判断法”,即:将硬件设备关机。
a、拆除所有外设,只保留系统启动需要最小硬件模块。看机器是否启动?如果无法启动,则证明硬件核心部件已经损坏,基本确定只能更换了。如果可以启动,则进行下一步。
b、增加1个外设,继续按照a步骤判断,以确定这个外设是否有问题。以此类推可以逐步缩小范围,最终确定是那个硬件出问题了。
⭕硬件故障的恢复方法:一般有这几种恢复办法:
①接触不良的:拆下清洁后,重新装回即可保持接触良好。
②硬件芯片故障:拆下做硬件级维修,(比如焊接更换电容,电感之类)
③硬件整体损坏:只能更换掉该硬件。
2、二、软件故障
软件故障,通常暗指硬件已经是正常状态了(如果不正常,先恢复硬件),软件范围也非常广,从操作系统、中间件、数据库、应用系统等等非常之多。种类多,厂家多。但故障处理也有一般手法。
⭕故障检测:
①,日志判断,收集自我怀疑的软件系统的日志,大部分软件都自带有日志记录功能。也就是软件运行过程的异常都会被完整记录在日志中。我们可以在日志中找到异常信息,再根据异常信息来推断是软件的配置问题?还是使用不当?等等。
②,日志可以判断大部分常规出错。但是软件毕竟是程序员编写的,难免有漏洞,有bug。漏洞会带来黑客攻击、病毒的侵害。bug会导致程序奔溃或者进入死胡同。这种通常检测办法:
a、排除病毒、攻击行为,打开杀毒软件,更新到最新病毒库,执行全面扫描。一旦发现威胁,立即进行查杀。直到不再扫描出病毒。
b、bug检测,程序异常退出、崩溃、或者死循环导致未响应,你就有理由怀疑程序本身有问题。那么我们要做的就是备份好数据。到官网查看bug、补丁通知,有则打上补丁,如果没有该通知,我们可以尝试升级到最新版本。
⭕恢复方法:
对应软件故障通常几种问题,简要描述对应的方法
①配置不当,如果检测出配置不当,立即检查相关软件配置,并认真阅读厂家的配置手册。按照配置手册修正相关软件配置。
②使用不当,终端用户使用不当导致程序得错误,你应当按照正确得操作步骤和方法,对终端用户进行培训。
③病毒侵扰,上面已经提到,必需将杀毒软件更新至最新病毒库,并进行全面杀毒,发现病毒立即查杀,直到不再扫描出病毒。
④bug问题,备份好数据。到官网查看bug、补丁通知,有则打上补丁,如果没有该通知,我们可以尝试升级到最新版本。