云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

对象存储_企业网站建设方案_免费

小七 141 0

好用的云存储_什么是_国内免备案云主机

编者按:我们很高兴为您带来这篇来自谷歌专家团队的博文,他们写了这本书(真的!)现场可靠性工程(SRE)几年前。这本书的第二版正在进行中,这篇文章深入探讨了与当今许多IT团队相关的SRE领域:云计算时代的故障排除。这是第二部分。查看第一部分"为云提供商提供更好的问题报告"。

计算机系统故障排除与计算机本身一样古老。有些人甚至称之为艺术。云计算模式需要对IT团队进行故障排除的方式进行根本性的改变。

成功的IT故障排除不仅取决于运气或经验,而且是一个可以教授的深思熟虑的过程。当您使用基于云的基础设施时,您通常会通过云提供商的帮助台进行故障排除,从而添加另一层来帮助用户。由于这种从传统IT团队模式的转变,您与提供商的沟通是必不可少的。(请参阅第一部分,了解有关如何编写有效的问题报告以从一开始就改进故障排除的更多信息。)

一旦您将问题告知您的提供商,您将与提供商的支持团队合作解决问题。

云故障排除的要点

从站点可靠性工程(SRE)的角度来看,一般的故障排除方法如下:

当您与云提供商合作解决问题时,这个过程有些部分你无法控制。但你可以跟着你这边的步骤走。以下是向云提供商支持团队提交报告时可以执行的操作。

1。沟通您在打开问题报告时已经完成的任何故障排除,您可能已经完成了一些故障排除。例如,您可能已经检查了提供者的状态页。分享你所采取的步骤和任何关键发现。保留一个时间表和日志,你做了什么,并与供应商分享。这意味着你应该从发现你的问题开始,尽快开始记录日志。请记住,虽然云提供商可能有遥测功能,可以提供对其基础设施状态的实时全知感知,但特定实现产生的依赖性可能不太明显。根据设计,您对云资源的特定使用是专有的和私有的,因此您的故障排除优势是至关重要的。

如果您认为您有诊断,请解释您是如何得出这个结论的。如果您认为其他人可以重现该问题,请包括这样做的步骤。问题报告中的可复制测试通常会导致最快的解决方案。

您可能对问题的起因有想法或猜测。在不考虑相反证据的情况下,注意避免确认偏差寻找支持你猜测的证据。如果你曾经玩过电话游戏,玩家在人与人之间低声传递信息,你已经看到了人类的翻译和口译是如何导致沟通的鸿沟的。与其在提供者通信中描述信息,不如尝试共享它。这样做可以减少读者误解您所说内容的机会,并有助于加快故障排除。不要假设您的提供商可以访问所有这些信息;客户隐私意味着他们可能无法访问这些信息。

例如:

通常,当云提供商支持部门接到生产中断的警报时,他们会通过以下步骤快速分析情况:

通常,大数据数据,您可以期望快速响应并提供简短的提示消息,其中可能包含:

重要的是要快速创建一个问题报告,包括四个关键细节(在第一部分中描述),然后开始更深入的故障排除在您这边的等式。如果您的组织有定义的事件管理流程(请参阅管理事件),云服务器器,那么升级到云提供商应该是您的初始步骤之一。

4。报告特定的网络问题大多数云提供商的网络庞大而复杂,由许多技术和团队组成。快速发现特定于网络的问题并与能够修复该问题的团队合作是很重要的。

许多网络问题都有类似的症状,比如"无法连接到服务器",在高级别上。这一级别的详细信息通常过于通用,无法用于确定根本原因,因此需要提供更多的诊断信息。网络问题与连接性有关,它至少涉及两个特定点:源和目标。报告网络问题时,请始终包含有关这些点的信息。

要构建问题报告,请使用数据包流程图的概念工具:

许多表现为高延迟或间歇性数据包丢失的问题需要进行路径分析和/或数据包捕获以进行诊断。路径分析是数据包经过的所有跃点的列表(例如,MTR或tcptraceroute)。数据包捕获(又称pcap,来源于libpcap库的名称)是对真实网络流量的观察。同时为两个端点捕获数据包是很重要的,这可能很棘手。使用必要的工具(例如tcpdump或Wireshark)进行练习,并确保在需要之前安装好它们。

5。适当时升级如果情况发生变化,您可能需要升级问题的紧急程度,以便迅速得到关注。如果业务影响增加,如果一个问题在支持下反复多次后仍然没有进展,或者如果有其他因素需要更快的解决,请执行此步骤。

升级问题最明确的方法是更改问题报告的优先级(例如,从P3改为P2)。提供您为什么需要升级的意见,大数据风控,以便支持部门能够做出适当的回应。