在IT运维领域,设备的稳定运行是企业业务连续性的基石。一套详尽、严谨的日常维护检查单(Checklist),是运维工程师高效、规范工作的核心工具。本文将系统梳理涵盖服务器、网络、存储、安全、机房环境等关键领域的100条必会维护检查点,为运维工作提供标准化操作指南。
一、服务器硬件维护检查(15条)
- 1. 物理状态检查: 目视检查服务器外观有无明显损伤、变形;指示灯状态(电源、硬盘、风扇、故障灯)是否正常。
- 2. 电源与供电:
- • 检查冗余电源模块状态是否均为正常(绿灯)。
- • 确认电源线连接牢固,无松动、老化、破损。
- • 检查PDU(电源分配单元)指示灯、电流电压显示是否在正常范围。
- 3. 风扇与散热:
- • 检查服务器内部及机柜风扇运转是否正常,无异常噪音(尖锐声、摩擦声、停转)。
- • 清理风扇及散热器格栅的灰尘(按需,结合机房清洁计划)。
- • 监控服务器进风口、出风口温度(通过管理口或传感器)。
- 4. CPU状态: 通过操作系统命令(如Linux的 top/htop, Windows任务管理器)或硬件管理工具(如iLO, iDRAC, IMM)查看CPU利用率、温度是否在合理阈值内(一般<80%持续高负载需关注)。
- 5. 内存状态:
- • 检查操作系统报告的内存总量是否与物理配置一致。
- • 检查内存使用率、Swap使用率(过高需排查)。
- • 通过硬件管理工具或 dmidecode 等命令检查是否有内存ECC错误报告。
- 6. 磁盘状态:
- • 物理磁盘: 检查硬盘指示灯状态(一般绿色正常,黄色预警,红色故障/离线);通过RAID卡管理工具(MegaCLI, storcli, hpssacli)或操作系统检查所有物理磁盘状态(Online, Predictive Failure 等)。
- • 阵列状态: 确认RAID级别,检查RAID阵列状态是否为Optimal或Normal,无降级(Degraded)或失效(Failed)。
- • 背板/线缆: 检查SAS/SATA/NVMe背板连接、线缆是否牢固。
- 7. PCIe设备: 检查关键扩展卡(HBA卡、网卡、GPU卡等)在操作系统和设备管理器中的状态是否正常。
- 8. 管理接口: 测试服务器带外管理接口(如iLO, iDRAC, iBMC)的网络连通性和登录功能是否正常。
- 9. 固件版本: (定期)检查关键组件(BIOS/UEFI, BMC, RAID卡, 网卡)固件版本,评估是否需要按计划升级(非紧急不打补丁)。
- 10. 物理连接: 检查所有数据线缆(网线、光纤、存储线缆)连接是否牢固、标签清晰、无过度弯折。
- 11. 日志检查: 查看服务器硬件日志(通过操作系统事件查看器、dmesg、journalctl 或硬件管理工具),筛选硬件相关错误(Critical, Error, Warning)并处理。
- 12. 备件状态: (周/月)确认关键备件(电源、风扇、硬盘)库存状态和可用性。
- 13. 资产信息核对: (定期)核对服务器物理位置、资产标签、配置信息(CPU、内存、硬盘)是否与CMDB记录一致。
- 14. 清洁度: (按机房清洁周期)确保服务器表面及周边无明显积尘。
- 15. 螺丝与安全: 检查机箱盖板是否盖好,固定螺丝是否齐全(影响散热和安全)。
二、网络设备维护检查(15条)
- 16. 物理状态检查: 目视检查交换机、路由器、防火墙等设备外观、指示灯(电源、状态、端口灯)是否正常。
- 17. 电源与供电: 检查冗余电源状态、电源线连接、PDU状态(同服务器检查点)。
- 18. 风扇与散热: 检查风扇运转状态、噪音、散热口通畅度。
- 19. CPU与内存利用率: 登录设备CLI或Web界面,检查CPU和内存利用率是否在正常范围(一般<70%),高峰时段重点监控。
- 20. 端口状态:
- • 检查所有业务端口状态(up/up),速率和双工模式是否正确。
- • 检查有无err-disable端口,并查明缘由。
- • 检查关键端口(上联、核心互联)的输入/输出错误计数(input errors, output errors, CRC, giants, runts)是否持续增长或过高。
- 21. 链路聚合状态: 检查聚合端口组状态是否为up,成员端口状态一致,无端口被踢出聚合组。
- 22. 生成树协议状态: 检查STP/RSTP/MSTP根桥位置是否预期,各端口角色(Root, Designated, Alternate/Blocking)是否正确,无异常拓扑变更(TCN)。
- 23. 路由协议状态:
- • 检查BGP/OSPF/EIGRP等邻居状态是否正常(Established, Full)。
- • 检查路由表是否收敛、完整,无异常路由抖动或缺失。
- 24. ACL与策略应用: (按需)检查关键ACL、策略路由、QoS策略是否按预期应用在正确接口。
- 25. 管理访问: 测试带外管理口(如管理网口、Console口)的连通性和登录功能。
- 26. 配置文件与备份: (定期/变更后)检查当前运行配置与启动配置是否一致;(定期)备份设备配置文件到安全位置。
- 27. 日志检查: 检查设备系统日志(Syslog),关注Error, Warning级别信息,特别是链路状态变化、协议邻居震荡、硬件故障等。
- 28. 固件/OS版本: (定期)检查操作系统(IOS, NX-OS, Junos, EOS, VRP等)版本,评估是否需要按计划升级。
- 29. 物理连接与标签: 检查所有网线、光纤跳线连接牢固,光纤接口清洁(无尘),线缆标签清晰准确。
- 30. 机柜内环境: 检查网络设备在机柜内安装是否稳固,线缆整齐规范,散热空间充足。
三、存储系统维护检查(10条)
- 31. 控制器状态: 检查存储控制器状态是否均为Online,无Failed或Degraded。
- 32. 电源与风扇: 检查冗余电源、风扇模块状态是否正常(同服务器)。
- 33. 磁盘柜与磁盘:
- • 检查磁盘扩展柜状态、链路状态。
- • 检查所有物理磁盘状态(Online, Spare, 无Failed, Predictive Failure)。
- • 检查磁盘槽位指示灯。
- 34. 存储池/LUN/卷状态: 检查存储池/卷组状态是否正常(Normal),LUN/卷状态是否为Online,无Degraded。
- 35. RAID状态: 确认RAID组状态为Optimal,无降级或重建中(如有,监控重建进度和性能影响)。
- 36. 缓存状态: 检查读写缓存状态是否启用、电池/电容状态(如BBU, FBWC)是否正常(OK, Charged),无警报。
- 37. 前端端口状态: 检查主机连接(FC, iSCSI, NFS, CIFS)端口状态是否Online,无错误计数异常。
- 38. 后端端口状态: 检查连接磁盘柜的SAS/FC后端端口状态是否正常。
- 39. 性能监控: 检查关键性能指标(IOPS, 吞吐量MB/s, 延迟ms)是否在基线范围内,无异常飙升或持续过高。
- 40. 快照与复制状态: (如配置)检查本地快照、远程复制(同步/异步)状态是否正常,无失败或挂起。
- 41. 容量管理:
- • 检查存储池/文件系统的总容量、已用容量、可用容量。
- • 检查容量利用率是否超过预设阈值(如>80%),提前规划扩容。
- 42. 管理接口与日志: 检查管理接口(带内/带外)连通性,审查系统告警日志和事件日志。
- 43. 固件版本: (定期)检查控制器、磁盘柜、磁盘固件版本,评估升级计划。
- 44. 物理环境: 检查存储设备散热、线缆连接、标签。
四、操作系统维护检查(15条)
- 45. 系统负载与运行状态:
- • 检查平均负载(uptime, w – Linux;性能监视器 – Windows)。
- • 检查关键服务/进程状态是否运行(systemctl status , ps -ef | grep – Linux;服务管理器 – Windows)。
- 46. CPU利用率: 使用 top, htop, vmstat 1, mpstat -P ALL 1 (Linux) 或任务管理器/性能监视器 (Windows) 监控CPU使用率及%idle,识别高负载进程。
- 47. 内存使用:
- • 检查总内存、已用内存、空闲内存、缓冲区/缓存内存(free -m, vmstat – Linux)。
- • 检查Swap使用量(free, swapon -s – Linux;页面文件使用 – Windows),过高Swap使用是内存不足的信号。
- 48. 磁盘空间:
- • 检查所有挂载点的磁盘使用率(df -h – Linux;资源监视器/wmic – Windows)。
- • 识别大文件或增长过快的目录(du -sh * | sort -h, ncdu – Linux;WinDirStat – Windows)。
- 49. 磁盘I/O: 监控磁盘读写速率、I/O等待时间、队列深度(iostat -dx 1 – Linux;性能监视器 – Windows),识别I/O瓶颈。
- 50. 网络连接与带宽:
- • 检查网络接口状态、IP配置(ip addr, ifconfig – Linux;ipconfig – Windows)。
- • 监控网络流量(iftop, nload, vnstat – Linux;资源监视器/第三方工具 – Windows)。
- • 检查TCP连接状态(netstat -anp, ss – Linux;netstat -ano – Windows),关注TIME_WAIT, CLOSE_WAIT过多。
- 51. 用户与登录:
- • 检查当前登录用户(who, w – Linux;query user – Windows)。
- • 检查最近的登录记录(last – Linux;事件查看器安全日志 – Windows)。
- • 检查异常用户或提权操作。
- 52. 关键进程资源占用: 检查数据库、中间件、应用进程的CPU、内存、句柄数等资源消耗是否异常。
- 53. 系统日志:
- • 聚焦检查或本地检查核心系统日志(/var/log/messages, /var/log/syslog, dmesg – Linux;事件查看器系统/应用日志 – Windows)。
- • 筛选 ERROR, WARNING, CRIT, FAIL 等级别信息并处理。
- 54. 定时任务: 检查计划任务(crontab -l, /etc/cron*/* – Linux;任务计划程序 – Windows)执行状态,查看日志确认是否成功。
- 55. 文件系统健康: (定期)检查文件系统完整性(fsck – Linux;chkdsk – Windows),一般在维护窗口进行。
- 56. 包管理与补丁:
- • 检查可用的系统更新(yum check-update, apt list –upgradable – Linux;Windows Update)。
- • (按变更管理流程)评估、测试、安排补丁安装。
- 57. 时间同步: 检查NTP服务状态,确认系统时间与NTP服务器同步(ntpq -p, timedatectl – Linux;w32tm /query /status – Windows)。
- 58. 安全更新与配置: (定期)审计系统安全配置(如SSH配置 /etc/ssh/sshd_config,密码策略,防火墙规则 iptables/nftables/firewalld – Linux;Windows防火墙/安全策略)。
- 59. 备份验证: (定期)验证操作系统层面的关键配置文件备份的可用性和完整性。
五、数据库维护检查(10条)
- 60. 实例状态: 确认数据库实例运行状态正常(sqlplus / as sysdba -> SELECT status FROM v$instance; – Oracle;SHOW DATABASES; – MySQL;SELECT state_desc FROM sys.databases; – SQL Server)。
- 61. 监听器状态: 检查数据库监听器是否运行并能接受连接(lsnrctl status – Oracle;SHOW PROCESSLIST; – MySQL;SQL Server配置管理器)。
- 62. 表空间/文件组使用率: 检查所有表空间/文件组的空间使用情况,确保有足够空闲空间(Oracle: DBA_FREE_SPACE;MySQL: information_schema.FILES;SQL Server: sp_helpdb / sys.database_files)。
- 63. 性能监控:
- • 监控关键性能指标(活动会话数、逻辑读/物理读、缓存命中率、锁等待)。
- • 识别慢查询(AWR, ASH – Oracle;慢查询日志 – MySQL;sp_whoisactive, 扩展事件 – SQL Server)。
- 64. 备份状态:
- • 检查最近一次全备、增量备/日志备份是否成功完成。
- • 检查备份文件大小是否合理,备份日志有无错误。
- • (定期)进行恢复演练验证备份有效性。
- 65. 日志文件:
- • 检查数据库告警日志(alert_.log – Oracle;错误日志 – MySQL;SQL Server错误日志)是否有 ORA-, Error 信息。
- • 检查事务日志文件状态和使用率(避免日志满)。
- 66. 作业与调度: 检查数据库作业调度器(Oracle Scheduler, MySQL Event Scheduler, SQL Server Agent)中的关键作业(如备份、统计信息收集、数据归档)执行状态是否成功。
- 67. 统计信息: (定期)检查表/索引统计信息是否陈旧,确保自动或手动收集任务正常运行。
- 68. 连接与会话: 检查当前连接数是否在合理范围,识别异常或长时间空闲会话。
- 69. 复制状态: (如配置)检查主从复制(MySQL Replication, SQL Server AlwaysOn/Replication, Oracle DG)状态是否正常,延迟是否在可接受范围内。
- 70. 安全审计: (定期)检查数据库用户权限、审核日志,确保符合安全策略。
六、虚拟化平台维护检查(8条)
- 71. 集群状态: 检查vCenter/SCVMM/Proxmox VE集群状态是否正常,主机无隔离、无错误。
- 72. 主机状态: 检查所有ESXi/Hyper-V/KVM宿主机连接状态、健康状态(CPU, 内存, 存储, 网络告警)、补丁级别。
- 73. 虚拟机状态: 检查所有虚拟机电源状态是否预期,无异常(无响应、启动失败、心跳丢失)。
- 74. 存储状态: 检查Datastore/LUN/存储池状态、容量使用率、性能指标(延迟、IOPS),确保无数据存储不可访问(APD/ PDL)。
- 75. 网络状态: 检查虚拟交换机(vSwitch, vDS)、端口组状态、物理网卡绑定状态。
- 76. 资源池与资源利用率: 监控集群及主机的CPU、内存使用率,是否有资源争用或瓶颈。
- 77. 高可用与容错: (如配置)检查HA(高可用性)、FT(容错)、DRS(分布式资源调度)功能状态是否正常。
- 78. 备份状态: 检查虚拟机备份作业是否成功完成,备份文件验证状态。
- 79. 管理节点: 检查vCenter Server/SCVMM服务器/Proxmox VE管理节点的状态、性能和日志。
- 80. 固件与驱动: (定期)检查宿主机的HBA卡、网卡固件和驱动版本,评估升级需求。
七、备份系统维护检查(7条)
- 81. 备份作业状态: 检查所有计划备份作业(全备、增量备、差异备)是否按计划成功完成。重点:检查作业日志中的错误或警告信息。
- 82. 备份数据验证:
- • (定期)执行备份数据的完整性验证(如果备份软件支持)。
- • (定期)执行关键数据的恢复演练(粒度恢复、整机恢复),验证备份实际可恢复性。这是最重大也是最易被忽略的环节。
- 83. 备份存储容量: 监控备份目标(磁盘库、磁带库、云存储)的存储空间使用率,确保有足够空间容纳未来的备份。
- 84. 介质状态: (如使用磁带)检查磁带驱动器状态、磁带介质状态(清洗带、数据带)、磁带库机械手状态。
- 85. 备份策略审核: (定期)审核备份策略(RPO, RTO)是否仍符合业务需求,备份保留周期是否合理。
- 86. 备份客户端状态: 检查所有需要备份的服务器/应用上的备份代理(Agent)状态是否正常、在线。
- 87. 备份软件状态: 检查备份服务器/介质服务器的状态、性能、日志。确认软件许可证有效。
- 88. 异地备份状态: (如配置)检查异地复制或云备份任务的状态和同步情况。
八、安全设备与策略维护检查(10条)
- 89. 防火墙状态: 检查防火墙引擎状态、HA状态(主备/集群)、接口状态、会话数是否正常。
- 90. 安全策略状态: 检查关键安全策略(ACL、NAT、IPS/IDS策略、应用控制策略)是否处于激活状态。
- 91. 威胁检测与日志:
- • 检查IPS/IDS告警日志,分析最新威胁事件。
- • 检查防火墙拒绝日志(deny),分析是否有异常扫描或攻击尝试。
- 92. VPN状态: (如配置)检查VPN隧道状态(是否up)、用户连接数。
- 93. 防病毒状态: (网络层/终端层)检查防病毒控制台,确认病毒定义更新正常,扫描任务执行正常,无大规模病毒感染告警。
- 94. 漏洞扫描结果: (定期)查看最新漏洞扫描报告,跟踪高中危漏洞的修复进度。
- 95. 日志审计: 检查聚焦日志平台(SIEM)或安全设备本地日志,关注安全事件(登录失败、权限变更、策略修改、高危操作)。
- 96. 访问控制列表: (定期)审计防火墙、路由器、服务器上的访问控制列表(ACL),清理过期或无效规则。
- 97. 证书状态: 检查SSL VPN、HTTPS代理等服务使用的数字证书有效期,避免过期。
- 98. 配置备份: (变更后/定期)备份安全设备(防火墙、IPS、WAF)的配置文件。
- 99. 固件/特征库更新: 检查安全设备的操作系统版本、IPS特征库、病毒库版本,按计划进行更新。
九、机房基础设施维护检查(10条)
- 100. 温湿度监控: 实时监控机房温度和湿度(一般温度22-24°C,湿度40-60%RH),确保在设定阈值范围内。
- 101. UPS状态:
* 检查UPS输入/输出电压、电流、频率、负载百分比。
* 检查电池状态(浮充电压、内阻、后备时间估算)。
* 检查UPS运行模式(一般应为Normal在线模式)。 - 102. 精密空调状态: 检查空调运行状态、设定温度/湿度、送回风温度、压缩机/风机状态、告警信息。
- 103. 配电柜状态: 检查配电柜总输入、各输出支路电流、电压、开关状态、指示灯。注意安全,非专业人员勿操作。
- 104. 漏水检测: 检查漏水检测系统状态是否正常,探头位置合理,无漏水告警。
- 105. 消防系统状态: (专业人员/维保人员)检查气体灭火系统、烟感温感探测器状态是否正常,压力表指示在绿区。严禁非授权操作。
- 106. 门禁系统状态: 测试门禁刷卡/生物识别功能、门磁状态、记录查询功能是否正常。
- 107. 视频监控状态: 检查摄像头画面是否清晰、覆盖关键区域(出入口、机柜通道、配电间、空调间)、录像存储正常。
- 108. 物理环境:
* 检查机房清洁卫生,地面、机柜顶部无积尘。
* 检查通道(冷/热通道)是否畅通无阻,无杂物堆放。
* 检查机柜门是否关闭。 - 109. 标签标识: 检查所有设备、线缆、开关、配电回路标签是否清晰、准确、完整。
十、文档与流程
- • Checklist执行记录: 每次执行检查后,应有记录(时间、执行人、结果、异常处理情况)。
- • 异常处理流程: 对检查中发现的异常,应有明确的报告、响应、升级和处理流程。
- • 定期Review: 定期(如每季度/半年)Review这份Checklist本身,根据业务变化、技术演进、故障教训进行增删修订。
- • 知识库更新: 将检查标准、常见问题处理方案沉淀到运维知识库。
© 版权声明
文章版权归作者所有,未经允许请勿转载。如内容涉嫌侵权,请在本页底部进入<联系我们>进行举报投诉!
THE END
暂无评论内容