云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

网站服务器_中国建设工程造价管理协会网站_测评

小七 141 0

如何制定服务健康警报策略

服务问题是任何可能影响您可用性的问题,从停机和计划维护到服务过渡和退休。尽管越来越少,但由于无影响维护和站点可靠性工程等学科的创新,服务问题确实会发生,这就是为什么服务健康警报是成功管理云操作的关键部分。这一切都是为了帮助您的团队了解环境的状态和健康状况,以便在出现问题时快速采取行动。这可能意味着要采取纠正措施,比如故障转移到另一个地区以保持应用程序的运行,或者只是与利益相关者沟通,让他们知道发生了什么。在本博客中,我们将介绍如何开发有效的服务运行状况警报策略,然后使用Azure服务运行状况警报使其成为现实。Azure服务运行状况警报的工作方式Azure服务运行状况是一个免费的Azure服务,当Azure服务问题(如停机和计划的维护)影响到您时,它将提供警报和指导。Azure服务运行状况在门户中作为仪表板提供,您可以在其中检查活动的、即将发生的和过去的问题。当然,您可能不希望定期检查Azure服务运行状况仪表板。这就是为什么Azure Service Health也提供警报。Azure服务运行状况警报会通过您首选的渠道自动通知您,如电子邮件、SMS、移动推送通知、webhook到您的内部票务系统(如ServiceNow或PagerDuty),以及其他影响您的问题。如果您是Azure服务运行状况警报的新手,您会注意到在配置过程中有许多选择可供选择。我应该提醒谁哪些服务和地区?我应该提醒谁哪些类型的健康事件?停机?计划维护?健康建议?我应该使用什么类型的通知,如电子邮件、短信、推送通知、webhook或其他什么?要正确回答这些问题,您需要与您的团队进行对话,并制定服务健康警报策略。如何与团队一起制定服务健康警报策略在设置Azure服务运行状况警报时,您的团队需要考虑三个关键因素。首先,考虑关键性。给定的订阅、服务或区域有多重要?如果它是生产的,您需要为它设置一个警报,但是开发/测试可能是不必要的。Azure服务运行状况是个性化的,因此如果服务问题影响到您不使用的服务或区域,我们不会触发您的警报。接下来,决定在发生问题时通知谁。谁是正确的人或团队来告知服务问题以便采取行动?例如,将azuresql或azurecosmos数据库问题发送给数据库团队。最后,就如何通知个人或团队达成一致。信息的正确沟通渠道是什么?电子邮件很嘈杂,所以您的团队可能需要更长的时间来回复。对于几周后的计划维护来说,这没问题,但对于现在影响到您的停机,在这种情况下,您需要使用一个可以立即看到的频道(如推送通知或短信)提醒您的待命团队。或者,如果您是一个更大或更成熟的组织,请使用webhook/ITSM连接将警报插入到现有的问题管理系统中,这样您就可以遵循正常的工作流程了。有关Azure服务运行状况、如何设置警报以及处理服务问题的其他关键指导的更多信息,包括(在某些情况下)完全避免其影响,请查看以下视频:立即设置你的Azure服务运行状况警报一旦您与团队进行了Azure服务运行状况警报对话并制定了策略,请在Azure门户中配置Azure服务运行状况警报。有关更深入的指导,请访问Azure服务运行状况文档。通过我们的反馈论坛提交一个想法,让我们知道你是否有建议。