云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

虚拟主机_美人为馅小说百度云_三重好礼

小七 141 0

使用项目延迟升级提高Azure虚拟机的弹性

"我们的目标是授权组织在Azure上可靠地运行其工作负载。以此作为我们的指导原则,我们不断投资于发展Azure平台,使其具有故障恢复能力,不仅可以提高业务生产力,还可以提供无缝的客户体验。上个月,我发表了一篇博客文章,重点介绍了在这个领域不断改进的几项举措,这是我们承诺提供一套可信的云服务的一部分。今天,我想详细介绍一下Tardigrade项目,这是一个平台弹性计划,它可以提高我们服务的高可用性,即使是在极少的自发平台故障情况下。下面这篇文章是由我们计算平台基础团队的pujithadesiraju和Anupama Vedapuri撰写的,他们正在领导这些工作这篇文章是由JimCavalaris合著的,他是Azure计算的首席软件工程师 代号为"缓步前进计划"(Project Tardigrade),这项工作的灵感来源于八条腿的微观生物,缓步动物也被称为"水熊"。几乎不可能杀死,缓步动物可以暴露在极端的条件下,但不知何故,他们仍然设法扭动他们的生存之路。这正是我们设想的服务器在考虑弹性时要模仿的,因此命名为projecttardigrade。与缓步者在各种极端条件下的生存类似,该项目涉及在从硬件到软件的多个平台层上构建弹性和自愈机制,所有这些都是为了尽可能保护您的虚拟机(VM)。它是如何工作的?projecttardigrade是一个广泛的平台恢复计划,它采用了许多缓解策略,目的是确保vm不会因为任何意外的主机行为而受到影响。这包括使组件能够自我修复并从潜在故障中快速恢复,以防止对工作负载的影响。即使在极少数的严重主机故障情况下,我们的首要任务是保护您的虚拟机不受这些自发事件的影响,以允许您的工作负载无缝运行。下面突出显示了一个恢复工作流示例,用于客户启动的VM操作由于主机服务器上的底层故障而失败的罕见事件。要成功执行失败的虚拟机操作,并主动防止该问题可能影响服务器上的其他虚拟机,将通知延迟恢复服务并开始执行故障转移操作。以下阶段简要介绍延迟恢复工作流:第一阶段:此步骤对运行客户vm没有影响。它只是回收主机上运行的所有服务。在出现故障的服务无法成功重新启动的罕见情况下,我们继续进行第2阶段。第二阶段:我们的诊断服务在主机上运行,系统地收集所有相关的日志/转储,以确保我们能够在第一阶段彻底诊断失败的原因。这种综合分析使我们能够"根本原因"问题,从而防止将来再次发生。第三阶段:在高层次上,我们将操作系统重置为一个健康的状态,对客户的影响最小,以减轻主机问题。在这个阶段,我们将每个VM的状态保存到RAM中,之后我们开始将OS重置为健康状态。当操作系统在底层快速重置时,在服务器上托管的所有vm上运行的应用程序会短暂地"冻结",因为CPU暂时挂起。这种体验类似于网络连接暂时丢失,但由于重试逻辑而迅速恢复。操作系统成功重置后,虚拟机将使用其存储状态并恢复正常活动,从而避免任何可能的虚拟机重新启动。根据上述原则,我们确保主机中任何单个组件的故障不会影响整个系统,从而使客户vm对意外主机故障更具免疫力。这还允许我们从一些最极端的严重故障(如内核级故障和固件问题)中快速恢复,同时仍然保留您关心的虚拟机状态。向前看目前,我们使用前面提到的延迟恢复工作流来捕捉并快速从Azure舰队中的潜在软件主机故障中恢复。同时,我们也在不断创新我们的技术能力,并扩展到不同的主机故障情况,我们可以通过这种恢复能力计划来应对。我们还希望探索机器学习的最新创新,以利用项目的前瞻性能力。例如,我们计划利用机器学习尽早预测更多类型的主机故障。例如,检测可能影响其工作负载的主机的异常资源利用模式。我们还将利用机器学习来帮助推荐适当的修复操作(如延迟恢复步骤、潜在的实时迁移等),从而优化我们整个车队的恢复选项。随着客户不断将业务关键工作负载转移到Microsoft Azure云平台上,我们不断学习和改进,以便继续满足客户对意外故障中断的期望。可靠性一直是我们值得信赖的云承诺的核心原则,与合规性、安全性、隐私性和透明度并驾齐驱。在所有这些领域,我们都知道,客户的信任是赢得的,必须保持,不仅要说正确的话,而且要做正确的事。通过确保底层主机问题不会影响VM,Tardigrade项目实践的平台弹性已经在增强VM的可用性。我们将继续分享这个项目和其他类似项目的进一步改进,尽可能透明地说明我们如何不断提高平台可靠性,以增强您的组织能力。