如何监控服务器硬件告警,虽然方法有很多,最终还是通过zabbix去监控,方便飞书接收告警。
zabbix可以使用IPMI或者SNMP实现,但是IPMI功能需要使用源码编译安装的zabbix才支持启用,所以我们用SNMP实现这个功能,以下是具体操作步骤和效果截图。
Zabbix 监控Dell服务器硬件 SNMPv2c 配置文档
适用于通过 SNMPv2c 协议在 Zabbix 中监控 Dell iDRAC 的硬件健康状态,包括温度、风扇、电源、硬盘、CPU、RAID卡、内存错误等。
一、iDRAC SNMP 配置
- 登录 iDRAC Web 管理界面。
- 进入路径:
iDRAC Settings → Network → Services → SNMP。 - 启用 SNMP Agent。
设置参数:
- SNMP 版本:
SNMPv2c - SNMP 团体名称:
public(或自定义一个高强度密码) - 端口:
161 - Trap 目的地:可选。(部分服务器无此选项)
- SNMP 版本:
保存配置并重启 SNMP 服务(如有需要)。
二、Zabbix 主机配置
添加主机:
- 主机名称:
10.1.1.11-idrac - 主机群组:
Linux servers或自定义。
- 主机名称:
添加 SNMP 接口:
- 类型:
SNMP - IP 地址:
10.1.1.11 - 端口:
161 - SNMP 版本:
SNMPv2c - 团体名称:
public(或输入自定义的高强度密码) - 最大重试次数:
10 - 使用组合请求:启用。
- 类型:
链接模板:
- 模板名称:
Dell iDRAC by SNMP
- 模板名称:
三、连通性测试
在 Zabbix Server 上执行:
snmpwalk -v2c -c public 10.1.1.11
如果返回大量 OID 数据,说明 SNMP 服务正常。
四、监控项与触发器
常见监控项:
System Board Inlet TempFan1 RPM,Fan2 RPMPSU StatusDIMM ECC Error Count
建议触发器:
| 项目 | 表达式 | 级别 |
|---|---|---|
| 温度 > 80°C | {host:item.last()} > 80 |
高 |
| 风扇转速 < 1000 RPM | {host:item.last()} < 1000 |
中 |
| DIMM ECC 错误 > 0 | {host:item.last()} > 0 |
高 |
| 电源状态 != OK | {host:item.last()} <> "OK" |
高 |
Dell iDRAC 温度阈值参考表(常见机型)
| 探针名称 | 非关键上限(nonCriticalUpper) | 关键上限(criticalUpper) | 说明 |
|---|---|---|---|
| CPU1 温度 | 80°C | 90°C | 超过 80°C 会触发 SNMP 状态告警 |
| CPU2 温度 | 80°C | 90°C | 同上 |
| System Board Inlet Temp | 40°C | 50°C | 进风口温度,环境影响较大 |
| System Board Exhaust Temp | 60°C | 70°C | 出风口温度,受负载影响 |
| PCH(Platform Controller Hub) | 85°C | 95°C | 芯片组温度,部分机型支持 |
| DIMM 温度(部分机型) | 70°C | 80°C | 仅部分 iDRAC 支持 DIMM 温度探针 |
Dell iDRAC 内存告警触发阈值参考表
| 告警类别 | 触发条件(参考值/状态) | 说明 |
|---|---|---|
| ECC 错误 | Correctable Error > 0 → 非关键告警 Uncorrectable Error > 0 → 关键告警 | ECC 错误计数由 iDRAC 监控,通常一旦出现不可纠正错误即触发 Critical |
| DIMM 温度 | nonCriticalUpper ≈ 70°C criticalUpper ≈ 80°C | 部分机型支持 DIMM 温度探针,超过阈值触发告警 |
| DIMM 电压 | 电压偏离额定值 ±10% | iDRAC 会上报 Voltage Probe 状态异常 |
| DIMM 状态 | Presence = Absent → Critical Status = Failed → Critical | DIMM 插槽缺失或模块故障 |
| 内存冗余 | Memory redundancy degraded → Warning Lost → Critical | 适用于启用了内存镜像/冗余的机型 |
Dell iDRAC 硬盘告警触发阈值参考表
| 告警类别 | 触发条件(参考值/状态) | 说明 |
|---|---|---|
| 硬盘状态 | OK → 正常 Degraded → 警告 Failed → 严重 |
由 iDRAC RAID 控制器上报 |
| 预测故障 | Predictive Failure = TRUE → 警告 | 硬盘 SMART 检测到即将故障 |
| 重建状态 | Rebuild = In Progress → 信息 Rebuild Failed → 严重 | RAID 重建过程监控 |
| RAID 虚拟盘 | Virtual Disk = Degraded → 警告 Virtual Disk = Failed → 严重 | RAID 阵列健康度 |
| 温度阈值 | nonCriticalUpper ≈ 55°C criticalUpper ≈ 60°C | 部分机型支持硬盘温度探针 |
| 固件/兼容性 | Firmware Mismatch → 警告 | 硬盘固件版本不一致 |
| SMART 错误 | SMART Error Count > 0 → 警告/严重 | 硬盘自检错误 |
五、安全建议
- 生产环境建议使用 SNMPv3(支持加密与认证)。
- 限制 SNMP 访问源 IP(仅允许 Zabbix Server)。
- 定期轮换 SNMP 团体名称或 SNMPv3 密码。
六、效果展示
Zabbix 监控浪潮服务器硬件配置文档
Zabbix 7.0 的官方集成库有浪潮(Inspur)BMC SNMPv3 的监控集成,但它不是内置在 Zabbix 前端模板列表里,而是放在 Zabbix 官方集成页面 和 社区模板库 GitHub 中,需要手动导入。
一、 模板下载链接
Zabbix 官方集成页面
- 地址:Zabbix Inspur 集成页(https://www.zabbix.com/integrations/inspur)
- 类型:Server Inspur BMC SNMPv3
- 功能:通过 SNMPv3 监控浪潮 BMC 接口,兼容 M4/M5 系列(NF5280M4、NF5280M5、SA5212M5 等)
- 支持监控:整体健康、型号、序列号、内存、风扇、硬盘、温度等自动发现项
社区模板库(GitHub)
- 地址:GitHub: fuyic1/zabbix-template(https://github.com/fuyic1/zabbix-template/blob/main/template_inspur_serverM7_for_Zabbix_7.0%2020240911.xml)
- 文件名:
template_inspur_serverM7_for_Zabbix_7.0.xml - 版本:适配 Zabbix 7.0
- 模板组:
Templates/Server hardware
二、模板使用方法
- 从上述 GitHub 下载 XML 模板文件
- 在 Zabbix 前端 → 配置 → 模板 → 导入 → 选择该 XML 文件
三、BMC SNMPv3 配置
- 登录 BMC Web 管理界面
- 进入菜单:日志和告警 → SNMP SET/GET 设置
启用 SNMPv3,填写以下参数(示例):
- 用户名:
admin - 鉴权算法:
SHA256 - 鉴权密码:
yyds2025 - 加密算法:
AES256 - 加密密码:
yyds2025
- 用户名:
保存设置后刷新页面(密码字段可能显示为空白,属正常)
四、Zabbix 主机配置
添加主机:
- 主机名称:如
inspur-yyds-BMC - 主机群组:如
Server Hardware
- 主机名称:如
添加 SNMP 接口:
- 类型:SNMP
- IP地址:BMC 管理口 IP
- 端口:161
- SNMP版本:v3
- 安全名称:
admin - 认证协议:
SHA256 - 认证口令:
yyds2025 - 隐私协议:
AES256 - 私钥:
yyds2025
链接模板(选择前面导入的模板即可)
五、验证与监控项
使用
snmpwalk命令测试连通性:snmpwalk -v3 -u admin -l authPriv -a SHA256 -A yyds2025 -x AES256 -X yyds2025 <BMC_IP>Zabbix 可自动发现以下组件:
- CPU、系统温度
- 风扇转速与状态
- DIMM 状态与 ECC 错误
- 硬盘状态与预测故障
- 电源、电压、功耗
- BMC 固件版本、序列号、整体健康状态
六、效果展示
Zabbix 监控HP服务器硬件配置文档
因为我这边HP服务器比较旧,没有合适的ILO口去配置测试,所以配置文档请参照DELL服务器配置流程,大差不差,且zabbix模板中已经自带了HP ILO by SNMP








