[转]美团外卖业务异常检测实践详解
美团外卖从 2013~2018,历时五年,现在已经是全球最大外卖交易平台。目前单日完成订单两千多万单,交易频次高,如果不能及时发现潜在业务指标异常,有可能引发重大事故。
1. 写在前面
外卖业务持续高速成长,业务迭代快,逻辑复杂,关联服务多。如何快速准确识别系统各项指标的异常,发现问题根因,并快速解决显得尤为重要。在常规业务指标监控工作中需要手动维护上万业务指标报警阈值,不仅成本高,效果也不佳。我们尝试使用“形变分析模型”对业务指标自动进行异常检测,无需人工设置阈值。在实践过程中与外卖全链路压测,服务保护等稳定性保障系统进行内联,目前已覆盖绝大部分美团外卖 C 端核心业务指标,效果不错。
2. 美团外卖业务异常检测现状
2-1. 外卖业务特点
美团外卖从 2013~2018,历时五年,现在已经是全球最大外卖交易平台。外卖业务相关的指标主要会分为两大类:
- 有规律的时间序列,大多数核心业务指标都会呈现出较强的规律性,如下图 1 所示:主要的履约交易流程(用户下单 > 支付 > 商家接单 > 配送 > 用户收货) 中各个业务指标呈现周期性、趋势性,午、晚高峰陡升明显,与低峰期数值相差百倍。目前单日完成订单两千多万单,交易频次高,如果不能及时发现潜在业务指标异常,有可能引发重大事故。
图 1:有规律的时间序列
- 无规律的时间序列,这类指标会因为一些偶发事件引起曲线的波动,没有很强的规律性。如下图 2 所示:1. 根据当前的业务现状实施有针对性的营销策略,在特定时间进行红包发放等。
2. 特定业务上线,比如外卖 SET 化确定某一时间点进行引流。
3. 某应用失败率因为服务器硬件问题出现陡升现象。
4. 某应用性能指标因为网络抖动引起的变化。
图 2:无规律的时间序列
……
[source]