故障诊断决策树
概述
故障诊断决策树是一种结构化的故障排查方法,通过逐级判断缩小故障范围,最终定位故障原因。本文档提供数据中心常见故障的诊断决策树。
网络故障诊断决策树
交换机端口故障
graph TD
A[端口故障] --> B{物理指示灯?}
B -->|不亮| C[检查光纤/网线]
C --> C1{线缆测试}
C1 -->|失败| C2[更换线缆]
C1 -->|通过| C3[检查光模块]
C3 -->|故障| C4[更换光模块]
C3 -->|正常| C5[更换端口]
B -->|亮| D{能否Ping通?}
D -->|否| E[检查VLAN配置]
E -->|配置错误| E1[修正VLAN]
E -->|配置正确| F[检查MAC地址]
F -->|异常| F1[清除MAC表]
F -->|正常| G[检查ACL/策略]
G -->|有阻断| G1[调整策略]
G -->|无阻断| H[设备硬件问题]
D -->|能Ping| I[应用测试]
I -->|失败| J[检查路由/网关]
I -->|成功| K[可能是间歇故障]
网络延迟高
graph TD
A[网络延迟高] --> B{所有设备延迟高?}
B -->|是| C[检查带宽利用率]
C -->|接近100%| C1[增加带宽/QoS限流]
C -->|正常| D[检查设备CPU]
D -->|CPU高| D1[排查设备攻击/配置]
D -->|CPU正常| E[检查链路质量]
E -->|丢包| E1[更换光纤/模块]
E -->|不丢包| F[检查路由路径]
F -->|路由次优| F1[优化路由]
F -->|路由正常| G[应用层问题]
B -->|否| H{单链路延迟高?}
H -->|是| I[分段Ping测试]
I --> I1[定位故障段落]
H -->|否| J[目的端问题]
电力故障诊断决策树
UPS告警处理
graph TD
A[UPS告警] --> B{告警类型?}
B -->|电池告警| C[检查电池状态]
C -->|电压低| C1[市电是否正常?]
C1 -->|否| C2[等待市电恢复]
C1 -->|是| C3[检查充电器]
C -->|电池老化| C4[容量测试]
C4 -->|不合格| C5[计划更换电池]
B -->|旁路告警| D[检查旁路状态]
D -->|旁路输出| D1[检查负载是否过载]
D -->|旁路异常| D2[联系厂家]
B -->|过温告警| E[检查环境温度]
E -->|温度高| E1[检查空调/通风]
E -->|温度正常| E2[检查风扇/传感器]
B -->|输出故障| F[检查输出配置]
F -->|配置错误| F1[修正配置]
F -->|配置正确| F2[联系厂家]
停电应急流程
graph TD
A[市电中断] --> B[UPS是否正常转电池?]
B -->|是| C[监控电池放电时间]
C --> C1{剩余时间?}
C1 -->|>30分钟| C2[通知启动柴发]
C1 -->|<30分钟| C3[准备关机]
B -->|否| D[检查UPS状态]
D -->|转旁路| E[切到维修旁路]
D -->|完全故障| F[紧急关机]
E --> G[启动柴油发电机]
F --> H[等待电力恢复]
G --> I[恢复供电]
H --> I
I --> J[正常后恢复设备]
制冷故障诊断决策树
空调不制冷
graph TD
A[空调不制冷] --> B[压缩机是否运行?]
B -->|否| C[检查电源]
C -->|有电| D[检查告警代码]
C -->|无电| D1[检查空开]
D -->|过流保护| D2[检查压缩机]
D -->|高压保护| D3[检查冷凝器]
D -->|低压保护| D4[检查泄漏]
B -->|运行| E[检查出风温度]
E -->|无冷风| E1[检查风机]
E -->|热风| E2[检查制冷剂]
E2 -->|不足| E3[检漏并补充]
E2 -->|正常| E4[检查膨胀阀]
故障诊断检查清单
网络故障快速检查
| 步骤 | 检查项 | 正常 | 异常处理 |
|---|---|---|---|
| 1 | 物理连接 | 指示灯正常 | 更换线缆/模块 |
| 2 | Ping网关 | 通 | 检查路由 |
| 3 | Ping目的 | 通 | 检查路径 |
| 4 | 检查VLAN | 正确 | 修正配置 |
| 5 | 检查ACL | 无阻断 | 调整策略 |
| 6 | 检查日志 | 无异常 | 分析日志 |
电力故障快速检查
| 步骤 | 检查项 | 正常 | 异常处理 |
|---|---|---|---|
| 1 | 市电状态 | 正常 | 联系电力 |
| 2 | UPS状态 | 正常 | 查看告警 |
| 3 | 电池电压 | 正常 | 检查充电 |
| 4 | 负载率 | <80% | 减负载 |
| 5 | 环境温度 | <30°C | 检查空调 |
制冷故障快速检查
| 步骤 | 检查项 | 正常 | 异常处理 |
|---|---|---|---|
| 1 | 空调运行 | 运行中 | 检查电源 |
| 2 | 滤网 | 干净 | 清洁滤网 |
| 3 | 出风温度 | 低 | 检查制冷剂 |
| 4 | 冷凝器 | 干净 | 清洁 |
| 5 | 告警代码 | 无 | 查看说明 |