背景:
团队内,三个系统,同时生产上线。因为另外一个系统凌晨的一个定时任务,弄错了参数。
导致第二天,出现了大量业务处理失败的交易。业务失败,但是系统处理是成功的。所以,并没有发现
直到用户打电话投诉
思考:
交易系统处理虽然成功,但是业务处理失败,失败的原因,依然需要警醒。通过长期的统计,估算出一个比例。如果超过这个比例,应该报警,进行系统的检查。
除此之外,可以通过预发布服务器,测试所有案例后,再确定上线。