虚拟主机_美人为馅小说百度云_三重好礼

小七 2019年10月25日 21:23 141 0

使用项目延迟升级提高Azure虚拟机的弹性

"我们的目标是授权组织在Azure上可靠地运行其工作负载。以此作为我们的指导原则，我们不断投资于发展Azure平台，使其具有故障恢复能力，不仅可以提高业务生产力，还可以提供无缝的客户体验。上个月，我发表了一篇博客文章，重点介绍了在这个领域不断改进的几项举措，这是我们承诺提供一套可信的云服务的一部分。今天，我想详细介绍一下Tardigrade项目，这是一个平台弹性计划，它可以提高我们服务的高可用性，即使是在极少的自发平台故障情况下。下面这篇文章是由我们计算平台基础团队的pujithadesiraju和Anupama Vedapuri撰写的，他们正在领导这些工作这篇文章是由JimCavalaris合著的，他是Azure计算的首席软件工程师代号为"缓步前进计划"（Project Tardigrade），这项工作的灵感来源于八条腿的微观生物，缓步动物也被称为"水熊"。几乎不可能杀死，缓步动物可以暴露在极端的条件下，但不知何故，他们仍然设法扭动他们的生存之路。这正是我们设想的服务器在考虑弹性时要模仿的，因此命名为projecttardigrade。与缓步者在各种极端条件下的生存类似，该项目涉及在从硬件到软件的多个平台层上构建弹性和自愈机制，所有这些都是为了尽可能保护您的虚拟机（VM）。它是如何工作的？projecttardigrade是一个广泛的平台恢复计划，它采用了许多缓解策略，目的是确保vm不会因为任何意外的主机行为而受到影响。这包括使组件能够自我修复并从潜在故障中快速恢复，以防止对工作负载的影响。即使在极少数的严重主机故障情况下，我们的首要任务是保护您的虚拟机不受这些自发事件的影响，以允许您的工作负载无缝运行。下面突出显示了一个恢复工作流示例，用于客户启动的VM操作由于主机服务器上的底层故障而失败的罕见事件。要成功执行失败的虚拟机操作，并主动防止该问题可能影响服务器上的其他虚拟机，将通知延迟恢复服务并开始执行故障转移操作。以下阶段简要介绍延迟恢复工作流：第一阶段：此步骤对运行客户vm没有影响。它只是回收主机上运行的所有服务。在出现故障的服务无法成功重新启动的罕见情况下，我们继续进行第2阶段。第二阶段：我们的诊断服务在主机上运行，系统地收集所有相关的日志/转储，以确保我们能够在第一阶段彻底诊断失败的原因。这种综合分析使我们能够"根本原因"问题，从而防止将来再次发生。第三阶段：在高层次上，我们将操作系统重置为一个健康的状态，对客户的影响最小，以减轻主机问题。在这个阶段，我们将每个VM的状态保存到RAM中，之后我们开始将OS重置为健康状态。当操作系统在底层快速重置时，在服务器上托管的所有vm上运行的应用程序会短暂地"冻结"，因为CPU暂时挂起。这种体验类似于网络连接暂时丢失，但由于重试逻辑而迅速恢复。操作系统成功重置后，虚拟机将使用其存储状态并恢复正常活动，从而避免任何可能的虚拟机重新启动。根据上述原则，我们确保主机中任何单个组件的故障不会影响整个系统，从而使客户vm对意外主机故障更具免疫力。这还允许我们从一些最极端的严重故障（如内核级故障和固件问题）中快速恢复，同时仍然保留您关心的虚拟机状态。向前看目前，我们使用前面提到的延迟恢复工作流来捕捉并快速从Azure舰队中的潜在软件主机故障中恢复。同时，我们也在不断创新我们的技术能力，并扩展到不同的主机故障情况，我们可以通过这种恢复能力计划来应对。我们还希望探索机器学习的最新创新，以利用项目的前瞻性能力。例如，我们计划利用机器学习尽早预测更多类型的主机故障。例如，检测可能影响其工作负载的主机的异常资源利用模式。我们还将利用机器学习来帮助推荐适当的修复操作（如延迟恢复步骤、潜在的实时迁移等），从而优化我们整个车队的恢复选项。随着客户不断将业务关键工作负载转移到Microsoft Azure云平台上，我们不断学习和改进，以便继续满足客户对意外故障中断的期望。可靠性一直是我们值得信赖的云承诺的核心原则，与合规性、安全性、隐私性和透明度并驾齐驱。在所有这些领域，我们都知道，客户的信任是赢得的，必须保持，不仅要说正确的话，而且要做正确的事。通过确保底层主机问题不会影响VM，Tardigrade项目实践的平台弹性已经在增强VM的可用性。我们将继续分享这个项目和其他类似项目的进一步改进，尽可能透明地说明我们如何不断提高平台可靠性，以增强您的组织能力。

本文地址： /zhuji/1464.html