云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

云数据库_百度云怎么用迅雷下载_超低折扣

小七 141 0

大数据云计算_购买_云数据库相关公司

在上一期CRE生活课程中,我们讨论了选择良好的服务级别指标(SLI)和服务级别目标(SLO)对于定义和衡量服务可靠性的重要性。SRE的书中也有一整章是关于这个话题的。在本期节目中,我们将了解meta,并更详细地介绍我们在Google使用的一些最佳实践,为sli制定良好的SLO。

SLO思考

您的企业需要能够通过减少中断频率或减少中断发生时的影响来保护濒危的SLO。实现这一点的一些方法可能包括:减慢发布新版本的速度,网购返利,或者通过实施可靠性改进而不是特性。您的业务的所有部分都需要承认这些SLO是有价值的,应该通过权衡来加以保护。

在设计SLO时,请记住一些重要事项:

示例SLO

在这里,我们试图回答"我们的用户是否可以使用服务?"我们的方法是统计失败和已知的未命中请求,数据和大数据,并以百分比形式报告度量结果。从您控制的第一个点记录错误(例如,来自负载平衡器的数据,而不是来自浏览器的HTTP请求)。对于微服务之间的请求,记录来自客户端的数据,而不是服务器端的数据。

这就给我们留下了一个SLO的形式:

可用性:对于

中至少的请求,例如。

可用性:节点.js将在30秒内以非503响应浏览器页面浏览量,每月至少有99.95%的请求。

。还有。

可用性:节点.js对于本月至少99.9%的请求,数据无价,移动API调用将在60秒内以非503响应。

对于耗时超过30秒(移动60秒)的请求,服务可能已关闭,因此它们计入可用性SLO。

延迟

延迟是衡量服务性能的指标为我们的用户执行。我们计算比阈值慢的查询数,武汉大数据,并将其报告为总查询数的百分比。最好的测量是在尽可能靠近客户端的地方进行的,因此,阿里大数据应用平台,对于传入的web请求,在负载均衡器处测量延迟;对于微服务之间的请求,在客户端而不是服务器处测量延迟。

例如。

延迟:节点.js每月至少50%的请求将在250ms内回复,每月至少99%的请求将在3000ms内回复。

百分比是您的朋友。

避免以平均(平均)延迟为目标—这几乎从来不是你想要的。平均值可以隐藏异常值,足够小的值与零无法区分;用户不会注意到整页响应时间在50 ms和250 ms之间的差异,因此它们应该是相当好的。平均250ms和平均250ms之间有很大的区别,因为所有请求都需要250ms,而平均250ms是因为95%的请求需要1ms,5%的请求需要5s。除100%