云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

阿里云_域名解析怎么做_试用

小七 141 0

验尸:昨天的网络中断是什么样子

昨天,格林尼治标准时间16:36左右,我们的网络服务中断。中断是由多种因素造成的。首先,我们有一个上游带宽提供商,它有一些主要影响我们欧洲数据中心的网络问题。第二,我们误用了网络速率限制,试图减轻我们的运营团队通宵抗击的大型DDoS攻击。CloudFlare旨在使站点更快、更安全、更可靠,因此,当我们网络上的任何事件导致任何客户的站点无法访问时,都是不可接受的。我想花点时间让你们更清楚地了解到底发生了什么,以及我们的运营和工程团队在恢复之后一直在做什么,以保护我们的网络在未来不会发生类似的事件。两个可见事件本文顶部的图表是CloudFlare八个欧洲数据中心的总流量。绿色部分表示入站到我们网络的流量,蓝线表示从我们的网络出站的流量。入站流量既包括我们从客户网站的访问者收到的请求,也包括我们从客户源服务器获取的任何内容。因为我们在网络上缓存内容,所以蓝线应该总是明显高于绿线。从图表中你可以注意到两件事:格林尼治标准时间13:30左右的绿色大尖峰和格林尼治标准时间16:30左右的蓝线下跌。虽然这两个时间相隔将近3个小时,但它们实际上是相关的。事情是这样的。有限的网络和恶劣的攻击我们的一家上游网络提供商在欧洲开始出现问题,因此我们将流量路由到他们的网络周围,这使得我们在该地区的一些设施中的流量比平时更多。这些事件一直在发生,我们的网络旨在让客户看不到这些事件。格林尼治标准时间13:00左右,针对我们客户的一个网站发起了一次非常大规模的DDoS攻击。最初的攻击最初是基本的第4层攻击——从大量受感染的机器向站点发送大量垃圾流量。攻击的峰值流量超过65 Gbps,其中大部分集中在欧洲。此攻击由上图中的绿色大尖峰表示。流量很大,但没有什么是我们的网络无法处理的。我们很擅长阻止这种简单的攻击,到格林尼治标准时间13:30,攻击者已经基本上停止了这种简单的攻击。在此期间,攻击没有影响到我们网络上的任何其他客户。到目前为止,在CloudFlare正常的一天里,没有什么是非典型的。缓和和错误在接下来的几个小时里,攻击者转而尝试其他媒介。虽然我们有自动化系统来处理许多此类攻击,但攻击的规模足以让我们的运营团队的几名成员监控情况并手动调整路由和规则,以确保遭受攻击的客户保持在线,而网络的其他部分都不受影响。格林尼治标准时间16:30左右,袭击者再次转移了载体。我们队实行了新的费率限制。费率限制本应只适用于受影响的客户,但却被误用到了更多的客户身上。由于流量已经比平时更集中在欧洲,误用的网络速率限制影响了该地区的大量客户。我们在北美和亚太地区的设施受到了一定程度的流量外溢,但在欧洲感受到了中断的冲击。从图中可以看到,入站和出站流量几乎完全在该地区减少。我们意识到自己的错误,重新调整了利率上限。在某些情况下,速率限制也会影响到设置到我们网络的路由的BGP通知。在接下来的一个小时内,您在图表上看到的峰值来自于该地区的网络路由重新平衡。烟雾试验我们一直在努力使越来越多的攻击缓解自动化。对于大多数可能影响我们网络的手动更改,我们都进行了烟雾测试,以确保错误不会进入生产。今天的事件暴露了我们需要在另一个地方进行此类检查。我们的团队昨天进行了额外的烟雾测试,以防止类似的事情再次发生。CloudFlare的发展非常迅速,因为我们提供了许多网站都需要的服务,这种服务价格低廉,而且任何人都可以轻松实现。我们所做的核心是确保网络的正常运行时间和可用性。昨天我们让许多顾客失望了。我们将从这次中断中吸取教训,并继续致力于实现确保我们的网络是互联网上最可靠的系统之一。