如何监控服务器硬件告警,虽然方法有很多,最终还是通过zabbix去监控,方便飞书接收告警。

zabbix可以使用IPMI或者SNMP实现,但是IPMI功能需要使用源码编译安装的zabbix才支持启用,所以我们用SNMP实现这个功能,以下是具体操作步骤和效果截图。

Zabbix 监控Dell服务器硬件 SNMPv2c 配置文档

适用于通过 SNMPv2c 协议在 Zabbix 中监控 Dell iDRAC 的硬件健康状态,包括温度、风扇、电源、硬盘、CPU、RAID卡、内存错误等。


一、iDRAC SNMP 配置

  1. 登录 iDRAC Web 管理界面。
  2. 进入路径:iDRAC Settings → Network → Services → SNMP
  3. 启用 SNMP Agent。
  4. 设置参数:

    • SNMP 版本:SNMPv2c
    • SNMP 团体名称:public(或自定义一个高强度密码)
    • 端口:161
    • Trap 目的地:可选。(部分服务器无此选项)
  5. 保存配置并重启 SNMP 服务(如有需要)。


二、Zabbix 主机配置

  1. 添加主机:

    • 主机名称:10.1.1.11-idrac
    • 主机群组:Linux servers 或自定义。
  2. 添加 SNMP 接口:

    • 类型:SNMP
    • IP 地址:10.1.1.11
    • 端口:161
    • SNMP 版本:SNMPv2c
    • 团体名称:public(或输入自定义的高强度密码)
    • 最大重试次数:10
    • 使用组合请求:启用。
  3. 链接模板:

    • 模板名称:Dell iDRAC by SNMP

三、连通性测试

在 Zabbix Server 上执行:

snmpwalk -v2c -c public 10.1.1.11

如果返回大量 OID 数据,说明 SNMP 服务正常。


四、监控项与触发器

常见监控项:

  • System Board Inlet Temp
  • Fan1 RPM, Fan2 RPM
  • PSU Status
  • DIMM ECC Error Count

建议触发器:

项目 表达式 级别
温度 > 80°C {host:item.last()} > 80
风扇转速 < 1000 RPM {host:item.last()} < 1000
DIMM ECC 错误 > 0 {host:item.last()} > 0
电源状态 != OK {host:item.last()} <> "OK"

Dell iDRAC 温度阈值参考表(常见机型)

探针名称 非关键上限(nonCriticalUpper) 关键上限(criticalUpper) 说明
CPU1 温度 80°C 90°C 超过 80°C 会触发 SNMP 状态告警
CPU2 温度 80°C 90°C 同上
System Board Inlet Temp 40°C 50°C 进风口温度,环境影响较大
System Board Exhaust Temp 60°C 70°C 出风口温度,受负载影响
PCH(Platform Controller Hub) 85°C 95°C 芯片组温度,部分机型支持
DIMM 温度(部分机型) 70°C 80°C 仅部分 iDRAC 支持 DIMM 温度探针

Dell iDRAC 内存告警触发阈值参考表

告警类别 触发条件(参考值/状态) 说明
ECC 错误 Correctable Error > 0 → 非关键告警 Uncorrectable Error > 0 → 关键告警 ECC 错误计数由 iDRAC 监控,通常一旦出现不可纠正错误即触发 Critical
DIMM 温度 nonCriticalUpper ≈ 70°C criticalUpper ≈ 80°C 部分机型支持 DIMM 温度探针,超过阈值触发告警
DIMM 电压 电压偏离额定值 ±10% iDRAC 会上报 Voltage Probe 状态异常
DIMM 状态 Presence = Absent → Critical Status = Failed → Critical DIMM 插槽缺失或模块故障
内存冗余 Memory redundancy degraded → Warning Lost → Critical 适用于启用了内存镜像/冗余的机型

Dell iDRAC 硬盘告警触发阈值参考表

告警类别 触发条件(参考值/状态) 说明
硬盘状态 OK → 正常 Degraded → 警告 Failed → 严重 由 iDRAC RAID 控制器上报
预测故障 Predictive Failure = TRUE → 警告 硬盘 SMART 检测到即将故障
重建状态 Rebuild = In Progress → 信息 Rebuild Failed → 严重 RAID 重建过程监控
RAID 虚拟盘 Virtual Disk = Degraded → 警告 Virtual Disk = Failed → 严重 RAID 阵列健康度
温度阈值 nonCriticalUpper ≈ 55°C criticalUpper ≈ 60°C 部分机型支持硬盘温度探针
固件/兼容性 Firmware Mismatch → 警告 硬盘固件版本不一致
SMART 错误 SMART Error Count > 0 → 警告/严重 硬盘自检错误

五、安全建议

  • 生产环境建议使用 SNMPv3(支持加密与认证)。
  • 限制 SNMP 访问源 IP(仅允许 Zabbix Server)。
  • 定期轮换 SNMP 团体名称或 SNMPv3 密码。

六、效果展示

Zabbix 监控浪潮服务器硬件配置文档

Zabbix 7.0 的官方集成库有浪潮(Inspur)BMC SNMPv3 的监控集成,但它不是内置在 Zabbix 前端模板列表里,而是放在 Zabbix 官方集成页面社区模板库 GitHub 中,需要手动导入

一、 模板下载链接

  1. Zabbix 官方集成页面

    • 地址:Zabbix Inspur 集成页(https://www.zabbix.com/integrations/inspur
    • 类型:Server Inspur BMC SNMPv3
    • 功能:通过 SNMPv3 监控浪潮 BMC 接口,兼容 M4/M5 系列(NF5280M4、NF5280M5、SA5212M5 等)
    • 支持监控:整体健康、型号、序列号、内存、风扇、硬盘、温度等自动发现项
  2. 社区模板库(GitHub)

二、模板使用方法

  1. 从上述 GitHub 下载 XML 模板文件
  2. 在 Zabbix 前端 → 配置 → 模板 → 导入 → 选择该 XML 文件

三、BMC SNMPv3 配置

  1. 登录 BMC Web 管理界面
  2. 进入菜单:日志和告警 → SNMP SET/GET 设置
  3. 启用 SNMPv3,填写以下参数(示例):

    • 用户名:admin
    • 鉴权算法:SHA256
    • 鉴权密码:yyds2025
    • 加密算法:AES256
    • 加密密码:yyds2025
  4. 保存设置后刷新页面(密码字段可能显示为空白,属正常)

四、Zabbix 主机配置

  1. 添加主机:

    • 主机名称:如 inspur-yyds-BMC
    • 主机群组:如 Server Hardware
  2. 添加 SNMP 接口:

    • 类型:SNMP
    • IP地址:BMC 管理口 IP
    • 端口:161
    • SNMP版本:v3
    • 安全名称:admin
    • 认证协议:SHA256
    • 认证口令:yyds2025
    • 隐私协议:AES256
    • 私钥:yyds2025
  3. 链接模板(选择前面导入的模板即可)

五、验证与监控项

  • 使用 snmpwalk 命令测试连通性:

    snmpwalk -v3 -u admin -l authPriv -a SHA256 -A yyds2025 -x AES256 -X yyds2025 <BMC_IP>
    
  • Zabbix 可自动发现以下组件:

    • CPU、系统温度
    • 风扇转速与状态
    • DIMM 状态与 ECC 错误
    • 硬盘状态与预测故障
    • 电源、电压、功耗
    • BMC 固件版本、序列号、整体健康状态

六、效果展示

Zabbix 监控HP服务器硬件配置文档

因为我这边HP服务器比较旧,没有合适的ILO口去配置测试,所以配置文档请参照DELL服务器配置流程,大差不差,且zabbix模板中已经自带了HP ILO by SNMP

Copyright © https://yan-jian.com 2023 all right reserved更新时间: 2025-12-10 13:37:19

results matching ""

    No results matching ""