凌晨两点,运维群突然炸锅:线上 Redis 连接数飙到95%,告警电话一个接一个。
有人一边翻日志一边骂娘,有人默默打开浏览器,输入http://监控地址:1157,十秒钟后,一条“已静默维护窗口”的提示弹出来,世界瞬间安静。
这套动作,用的就是 Apache HertzBeat——一个连 Agent都懒得装、却能把监控玩出花样的开源系统。
先说最戳人的点:无代理。
传统监控工具像 Zabbix、Prometheus一般得在被监控端装个“小探针”,装得多了,机器里全是“小尾巴”。
HertzBeat 偏不,它直接通过 HTTP、JMX、SSH、SNMP、JDBC这些标准协议“隔空取数”。
MySQL 慢查询、RedisQPS、交换机端口流量,统统拉过来,省掉一堆“装软件—改配置—重启服务”的破事。
第一次用的人常忍不住嘀咕:就这么简单?
还真就这么简单。
模板是第二道惊喜。
官方给了近百套 YAML 模板,从 Nginx 到 Kafka,从 Windows 内存到Kubernetes Pod,复制粘贴就能用。
但真正的爽点在于“魔改”。
列如公司自研的订单接口,返回 JSON 里有个字段叫order_delay_ms,把模板里的指标路径一改,采集周期调成 15秒,再配个阈值“>500ms 就告警”,一条自定义监控就上线了。
不用写代码,不用重启,喝杯咖啡的功夫,监控就长在了业务身上。
告警这块,HertzBeat 把“人性化”三个字写在了脸上。
阈值规则支持 PromQL,能玩出“CPU 连续 3 次 90% 且内存同时80%”这种复合条件;通知渠道塞满了邮箱、钉钉、微信、Slack、Webhook,甚至还能给短信模板里加Emoji。
最贴心的是“告警抑制”:高优告警一出,低优的自动闭嘴,避免半夜被“磁盘剩余10%”和“磁盘剩余 9.9%”连环轰炸。
再加上静默窗口,发版期间一键“全体禁言”,耳根子清净不少。
集群部署就更像搭积木了。
起一个主服务,再起几个采集器节点,节点自动注册,流量自己均衡。
机器不够?
水平加节点;机器挂了?
其他节点秒接管。
没有 ZooKeeper,没有复杂选主,配置文件里两行字搞定。
小公司用三台云主机就能跑,大厂把采集器撒进 K8s,Pod飘来飘去,指标一条不落。
最近几个更新,直接把 HertzBeat 推进了“云原住民”行列:CNCF全景图里有了名字,K8s、Istio 服务发现直接对接;多租户一开,A 团队和 B团队各玩各的,互不干扰;时序数据库换成InfluxDB,历史数据存半年,查询还能秒回;机器学习模块偷偷上线,偶尔给你推一条“Redis连接数异常波动,疑似连接泄漏”,点进去一看,还真是代码忘了关连接。
RBAC 和 LDAP集成也安排上了,权限粒度细到“谁能改谁的告警规则”,安全狗看了都说稳。
有人把 HertzBeat比作“监控界的瑞士军刀”,实则更像一把趁手的螺丝刀:不花哨,但拧哪颗螺丝都刚刚好。
凌晨三点的告警风暴里,它让值班同事少掉几根头发;季度汇报时,状态页往大屏一投,红黄绿三色块让老板一眼看懂“系统稳不稳”。
开源、免费、不装Agent,这三板斧砍下来,传统监控工具只能默默把“安装脚本”文件夹再藏深一点。
浏览器里输入1157,十分钟搭一套能抗能打的监控系统——这不是广告,是无数夜猫子运维用黑眼圈换来的真实体验。
- 最新
- 最热
只看作者