天翼云_3a服务器_学生机

小七 2019年10月25日 21:23 141 0

软件部署错误导致的Cloudflare中断（已更新）

这是一个简短的占位符博客，将被一个完整的验尸和今天发生的事情的披露所取代。在今天大约30分钟的时间里，Cloudflare站点的访问者收到了502个错误，这些错误是由我们网络上CPU利用率的巨大峰值造成的。CPU峰值是由回滚的错误软件部署引起的。回滚后，服务将恢复正常操作，所有使用Cloudflare的域都将恢复正常流量水平。这个不是一次袭击（正如一些人猜测的那样），我们对这起事件的发生感到非常抱歉。在我写这篇文章的时候，内部团队正在开会进行全面的事后分析，以了解这是如何发生的，以及我们如何防止这种情况发生再次更新2009年UTC:开始于1342 UTC今天，我们在整个网络中经历了一次全球宕机，导致访问Cloudflare代理域的用户显示502个错误（"坏网关"）。此次中断的原因是在对新的Cloudflare WAF Managed进行常规部署期间，在Cloudflare Web Application Firewall（WAF）中部署了一个配置错误的规则规则。那个这些新规则的目的是改进对用于攻击的内联JavaScript的阻止。这些规则是在一种模拟模式下部署的，在这种模式下，新规则会识别并记录问题，但实际上不会阻止任何客户流量，因此我们可以测量假阳性率，并确保新规则在完全部署时不会造成问题生产。不幸的是, 其中一个规则包含一个正则表达式，它使我们全球范围内的计算机的CPU峰值达到100%。这个100%的CPU峰值导致了我们客户看到的502个错误。在最糟糕的情况下，流量下降了82%。这张图表显示了我们的爸爸：我们是看到前所未有的CPU耗尽事件，这对我们来说是新奇的，因为我们以前从未经历过全局CPU耗尽。我们不断地在网络上进行软件部署，并拥有运行测试套件的自动化系统和逐步部署以防止事故发生的过程。不幸的是，这些WAF规则一次性部署到全球，并导致了今天的停机时间1402 UTC我们了解发生了什么，并决定对WAF管理的规则集发出"全局终止"，这将立即使CPU恢复正常并恢复流量。发生在1409年UTC。我们然后继续检查有问题的pull请求，回滚特定的规则，测试更改以确保我们100%确定我们有正确的修复，并在1452重新启用WAF管理的规则集UTC。我们认识到这样的事件对我们的客户来说是非常痛苦的。我们的测试过程在这种情况下是不够的，我们正在审查和修改我们的测试和部署过程，以避免将来发生类似的事件。

本文地址： /zhuji/1918.html