防火墙—智能选路

3个月前发布

050

别只看带宽！多链路选路的真相和我在生产环境踩过的那些坑

防火墙—智能选路

我朋友小陈负责一家中型电商的网络，手里有三条链路：一家100M光纤、一家50MMPLS和一家10M廉价备份。按理说带宽够用，结果高峰期用户依旧抱怨页面慢、支付超时。说实话，遇到这类问题我觉得许多团队第一反应就是再加带宽，或者把流量按带宽简单分配，结果把钱花在了看不见的地方。多链路选路实则不是选“更大的管子”，而是选“合适的路子”。

许多工程师常用的选路思路可以归为几种，各自有适用场景和坑。单纯按带宽分担适合对等性能且成本差别不大的情况，优点是实现简单，缺点是完全忽视时延和丢包，这会把实时业务丢给看起来“空闲”的慢链路。按质量动态分担更适合对用户体验敏感的流量，需要实时感知链路的延迟、抖动和丢包，然后在权重上做动态调整。但这类方案要做好探测设计和抖动抑制，不然一遇到短暂波动就开启大规模流量迁移，反而造成震荡。

防火墙—智能选路

按权重分担是折中的办法，把带宽和质量综合成一个“权重”去分配流量，实操上我提议把权重计算成带宽乘以质量得分，再加一个最小权重底线，避免弱链路被完全饿死。举个我同事张姐的例子，她把权重设成带宽*质量得分，结果慢链路仍有少量备用流量，既保证了主流体验又不浪费资源。主备优先级策略则更适合对可靠性要求极高但日常成本敏感的业务，把便宜链路做备份或把延迟低的链路设为主用，这种场景下关键在于健康检查和切换策略的严谨性，切换必须有冷静期和回滚机制，否则一次探测抖动就可能把用户体验丢光。

在实践中，我会提议先做监控打底：把延迟、丢包、抖动和应用层重传率都收集起来，探测间隔和聚合窗口要能平衡实时性和稳定性。再把不同业务做分类，把大文件同步、备份类流量优先按带宽分配，把语音、支付、交互类流量按质量打分并动态调整。实现上可以把质量分数做成一个0到1的小数，基于最近1分钟的丢包率和延迟做归一化，然后用这个分数去修正带宽权重，最后施加一个最小权重阈值来防止抖动导致的链路饿死。说白了，不要把所有流量都当等价物去轮询，分层分级的策略更贴近真实业务需求。

防火墙—智能选路

部署提议很接地气：先在非高峰时段做小范围灰度，把探测阈值和冷却时间调到保守，观察一周的变化曲线再逐步放大；把切换日志和应用端感知指标放在同一个面板上，遇到体验下降时回溯是链路问题还是策略颠覆。别轻易信任单点的“智能算法”，由于没有任何算法能取代良好的观测体系和工程级的容错设计。反正我是这么觉得，许多“线上抖动”都是由于没有给路由决策留出稳定窗口。

未来趋势上，越来越多团队会把多链路选路交给SD-WAN或控制面更丰富的路由器，但这并不意味着可以把设计义务完全转交给厂商。投资可观测性、做好流量分层和建立切换演练机制，会比盲目追新功能更能保护用户体验。更重大的是，把选路策略当作产品问题来做，而不是纯技术的“流量均衡”问题，只有这样才能把成本和用户体验同时管住。

防火墙—智能选路