云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

服务器_免费云存储的摄像头_哪个好

小七 141 0

韩国云服务器_关于_人工智能的新应用

在太平洋标准时间1月20日下午4:05,Mixpanel的摄取API间歇性地不可用,直到大约晚上8:55。这起事件是由两个主要因素引起的:我们的后端排队系统容量不足,以及我们的Android SDK中的一个缺陷,它产生了一个雷鸣般的群体。下午2:30,由于计划中的网络维护,我们将流量从我们的一个数据中心转移出去,给我们的华盛顿特区数据中心增加了两倍的负载。下午4点,摄食流量出现10倍的峰值。再加上维护带来的额外负载,我们开始对数据进行排队。我们将足够多的数据排入队列,什么是云,导致队列服务器绑定到磁盘IO。这降低了排队吞吐量,导致一些API请求超时。由于一个bug,我们的Android客户端库通过每秒重试而不是后退来响应这些超时。这引发了一场雷鸣般的牧群。大量的重试请求增加了服务器的负载,什么是淘客,增加了响应延迟,大数据分析软件,进而导致超时,导致更多的重试。我们的补救步骤是首先向我们的Android客户端返回一个带有HTTP"Retry After"头的响应,大数据数据处理,试图增加它们的重试间隔。一旦我们测试并将其部署到生产环境中,我们就能够控制服务器上的负载。在响应延迟降到可管理的水平后,我们以足够低的速率缓慢地增加来自Android客户端的请求,以避免引发雷鸣般的羊群效应,最终接受所有流量。到晚上8点55分,API已经完全恢复。到晚上10点27分,所有排队的数据都用完了,恢复了正常运行。我们在每一份报告的顶部都放置了横幅,提醒客户服务质量下降。问题和纠正计划都是在MixpanelStatus推特上发布的,只要解决方案到位。所有电子邮件问题发送至support@mixpanel.com在整个事件中定期更新。但是,由于配置错误status.mixpanel.com网站未检查受影响的数据中心,无法正确反映事件。为了在短期内解决这个问题,农业物联网,我们将用固态硬盘替换旋转磁盘,以提高性能,同时考虑长期解决方案。我们正在采取几项措施防止今后出现这种情况。我们目前正在为状态服务器进行修复。我们正在Android和iOS移动sdk中实现随机指数退避逻辑。与此同时,我们对负载平衡器的配置进行了更改,以解决Android客户端错误。最后,我们订购了更多的队列服务器来增加容量,并将所有队列服务器重新配置为使用ssd,而不是旋转磁盘。我们为这次事件道歉。我们知道我们的可用性对我们的客户很重要,所以我们非常重视这些活动。