企业网站_web数据库技术_是什么

小七 2019年10月25日 21:23 141 0

AWS每秒计费对大数据处理意味着什么

统一分析平台Databricks一直是云计算的首选平台。我们相信云的可伸缩性和弹性，这样客户就可以轻松地运行他们的大型生产工作负载，并为他们所使用的东西付费。因此，我们一直在以每秒一级的粒度向客户收费。直到上个月，AWS的计费一直是按小时递增的。最近，他们转向了每秒计费。AWS的这一转变，再加上Databricks的每秒计费，使得大数据处理架构发生了巨大变化。它消除了对云中纱线（YARN in the cloud）等资源调度程序带来的不必要的复杂性的需要，并提供了一种更简单、更强大的方法来运行生产大数据工作负载。为什么云中需要资源调度程序？由于计费的每小时递增，用户花费大量时间在大数据工作负载上玩一个俄罗斯方块游戏——弄清楚如何打包作业以利用每分钟的计算时间。示例：如果一个作业可以在10个节点上运行，并在20分钟内完成，那么最好在较少的节点上运行它，这样大约需要50分钟。结果，你会付更少的钱。并行运行两个10节点的作业需要20分钟，其成本是顺序运行的两倍。如果有许多这样的工作要做，上述问题就更加复杂了。为了应对这一挑战，许多组织求助于像YARN这样的资源调度器。企业正在遵循传统的内部部署模式，即在云端建立一个或多个大型多租户集群，并运行纱线来打包不同的工作。资源调度程序会带来什么复杂情况？资源利用率：了解多租户集群的资源利用率非常困难。用户必须花费大量的时间进行反复试验，并且必须使用不同的分析工具来计算不同作业的资源利用率，以对其进行优化。资源配置文件：用户无法控制多租户群集中特定作业的资源配置文件。例如，对于多租户集群中的一个特定作业，不能从通用实例类型切换到计算优化实例类型。配置：纱线暴露数百个配置参数，以控制和微调资源管理的不同方面。如果配置不正确，事情会变得非常笨拙，很难调试。云端大数据处理的未来对于二级计费，在云上使用诸如YARN这样的资源调度程序是EC2等云计算服务之上的一个附加层。事实上，我们相信这是云计算中的一种反模式，云计算的弹性消除了对这种不必要的复杂性的需要。因此，在Databricks，我们建议充分利用云的固有弹性：让每个作业启动自己的集群，在这个新集群上运行作业，并在作业完成后自动终止集群。换句话说，您可以使用符合作业需要的资源配置文件。当作业需要使用给定的配置文件时，我们还负责调配资源，并且在作业完成后自动取消资源调配。这种在云中运行生产作业的简单方法有着巨大的好处：你不再需要玩俄罗斯方块与你的工作量。您只需为作业指定资源配置文件，并让它们以并行方式运行。您不再需要担心微调数百个资源管理参数，这些参数是成本控制的代理。您的作业不再与同一集群上的其他作业争夺资源。由于每个集群只运行一个作业，因此您可以轻松了解资源利用率并相应地优化作业。你可以自由地为你的工作尝试不同的资源配置文件。例如，您可以轻松地从通用实例类型切换到计算优化实例类型，并比较您的作业性能。你可以很容易地按不同的工作来分摊成本。您甚至可以按单次作业运行计费。对于这种方法，用户最初有一个常见的误解：当不再共享资源时，让每个作业在自己的集群上运行不是非常低效吗？答案是一个简单的否定。上面的方法与应用程序如何在纱线上运行非常相似。我们刚刚消除了所有其他不必要的日程安排复杂性。因此，这种方法与在纱线上运行一样具有成本效益。当不使用传统的多租户集群时，这种简单的方法需要一些关键功能来弥补一些差距：快速集群启动时间：Databricks中的集群通常在两分钟内启动。我们的大多数客户都是这样经营生产的。如果您需要运行大量的短期生产作业（比如5分钟的作业），那么两分钟的启动时间可能是个问题。对于这样的应用程序，我们建议在一个Databricks持久集群上打包多个这样的作业。历史度量和日志：集群终止后，所有日志和度量信息都必须可用，以便进行故障排除。在Databricks中，我们在集群终止后保存所有的历史日志、Spark UI和度量信息，并在每次作业运行时显示它们。我们还将日志发送到您选择的S3存储桶中，这样您就可以清楚地记录所有作业的运行情况。结论随着最近宣布的AWS二级计费，组织最终可以打破在传统的多租户集群上运行多个作业的复杂的内部部署模型，转向在云中自己的临时集群中运行每个生产作业的更简单、更强大的模型。这一模型将使数据工程师和数据科学家能够非常高效地工作，并将更多的时间集中在处理数据上，而不是配置基础设施来优化成本。如果您有兴趣在实际中试用这个新模型，您可以注册免费试用Databricks。如果您有任何问题，您可以联系我们了解更多细节。免费试用Databricks。今天就开始吧

本文地址： /zhuji/3069.html