最近,公司的ERP系统在使用一段时间后经常无法连接。用户投诉很大。
毕竟,花了很长时间才发现错误。今天,我将与您分享这个过程。
故障描述ERP系统是我们公司的关键核心业务系统,已被许多人使用。最近,总是有用户报告系统无法连接,并且系统上的用户直接断开连接。
但是可以ping通。根据背景顶部查询,负载超过100。
可以看出系统的负载非常高,并且系统无法响应用户的连接请求。或系统响应超时。
结果,无法提供连接。在故障排除过程中,发现负载已增加。
第一印象是系统设置或系统程序未正确编写。这将导致服务器冻结。
最初的想法是从软件开始。第一步是要求程序员对最新的在线程序进行自检。
结果,找不到故障点。第二步是检查应用程序系统的一些系统脚本。
原始制造商被要求进行自我检查,没有发现任何问题。进入系统检查日志,未发现软件和硬件问题。
下一步是怀疑硬件问题。通过观察的方法,服务器硬件没有告警信息。
此时,它已完全陷入无限循环。故障仍然存在,并在重新启动服务器后几分钟再次发生故障。
供应商之前曾提醒过,它始终卡在远程登录过程中。询问我们的硬盘驱动器是否有问题。
但是,长时间观察后,我们在硬盘上没有看到任何警告消息。面板上没有黄灯或红灯。
经过几次提醒,我们仍然进入RAID卡进行检查。发现一个硬盘以黄色显示。
颜色与其他硬盘驱动器不同。初步估计是此硬盘的问题。
然后更换了硬盘。 RAID重建完成后。
观察到负载恢复正常。结论这是一个非常奇怪的错误。
这也是值得所有人参与的案例。系统会欺骗我们一些事情。
如果仅依靠观察,请使用常规思维来查找故障点。我想没有办法一次找到所有问题。
会影响到企业的运作。另外,还有一个非常重要的一点,我们的服务器是一台旧服务器。
自从我买了它已经七八年了。备用硬盘驱动器是已拆卸的产品。
这些故障是由拆解的产品引起的。切记要小心拆卸产品。