免备案CDN_主流数据库_代金券

小七 2019年10月25日 21:23 141 0

使用Databricks池加速数据管道和快速扩展集群

数据工程团队在数据块上部署简短的自动化作业。它们希望集群能够快速启动、执行作业并终止。数据分析团队在数据链上运行大型的自动伸缩、交互式集群。他们希望这些集群能够适应增加的负载并快速扩展，以最小化查询延迟。Databricks很高兴地宣布Databricks Pools，这是一种虚拟机实例的托管缓存，使集群能够以更快的速度启动和扩展。数据块池之前的集群生命周期如果没有池，Databricks根据请求从云提供商获取虚拟机（VM）实例。这是成本效益高但速度慢。没有空闲的VM实例需要付费，但是对于每个cluster create和auto-scaling事件，databrick必须从云请求VM并等待它们初始化。下图显示了数据工程作业集群和交互式数据分析集群的典型生命周期。当不使用Databricks池时，Databricks集群直接从云提供商获取VM实例。这对于数据工程师来说是不够的。集群开始时间可以支配作业的总执行时间。这对数据分析师来说也不够。当运行大型查询时，等待集群扩展会降低生产率。与Databricks池比较性能下图显示了Databricks集群的平均启动时间。在没有池的情况下，每个集群创建请求都必须从云中获取新的vm，初始化这些vm上的守护程序服务，并将Databricks运行时（DBR）下载到这些vm上。这些步骤的结果是创建集群的平均时间为145秒。两分钟半！对于池（以蓝色显示），创建集群会跳过这些步骤，所需时间不到40秒。集群自动伸缩也跳过了这些步骤，提供了类似的性能提升。使用（蓝线）和不带（红线）数据块池的典型集群创建时间。游泳池快4倍。一种新的具有数据块池的体系结构Databricks引入了Pools（一种VM实例的托管缓存）来实现集群启动和自动伸缩时间从几分钟减少到几秒钟，当连接到池的集群需要VM实例，而不是从云提供商请求新的VM实例时，它会检查池。如果池中有足够的空闲实例，集群会获取这些实例并快速启动或扩展；如果空闲实例不足，则会通过从云提供商分配新实例来扩展池，以满足集群的请求。这将减慢请求的速度，因此在池中维护足够的空闲实例非常重要。当一个池集群释放实例时，它们会返回到池中，并可供其他集群使用。只有连接到池的集群才能使用该池的空闲实例。下图显示了使用Databricks池的数据工程作业集群和交互式数据分析集群的典型生命周期。当从Databricks池中获取实例时，Databricks集群的启动和扩展速度提高了4倍。利用数据库池进行成本控制在Databricks池中保留空闲的VM实例对性能很好，但不是免费的。Databricks不会对Databricks集群不使用的空闲实例收取DBUs的费用，但是云提供商的基础设施成本确实存在。有几个建议的方法来管理这个成本。首先，手动编辑池的大小以满足您的需要。如果您只在工作时间运行交互式工作负载，请确保池的"minidle"实例计数在下班后设置为零。或者，如果您的自动数据管道在夜间运行几个小时，请在管道启动前几分钟设置"最小空闲"计数，然后将其恢复为零。或者，始终保持"minidle"为零，但设置"Idle Instance Auto Termination"超时以满足您的需要。池上运行的第一个作业将缓慢启动，但在超时时间内运行的后续作业将快速启动。当作业完成后，池中的所有实例都将在空闲超时后终止，从而避免了云提供商的成本。您还可以通过设置池的最大容量来预算虚拟机资源。这将限制连接到池的所有空闲实例和集群使用的实例的总和。通过Databricks池部署VM实例的托管缓存开始使用Databricks池很容易。单击侧栏中的集群图标，选择池选项卡并单击"创建池"按钮。Databricks池入门：创建池创建池之后，您可以看到集群正在使用的实例数、空闲和准备使用的实例数以及挂起的实例数（即空闲但尚未就绪）。Databricks池入门：演示池要使用池中的空闲实例，请从cluster create template中的下拉列表中选择池。这对交互式集群和自动作业集群都有效。选择池后，集群将对驱动程序和工作节点使用池的实例类型。假设池中有足够的空闲实例处于热态（在池创建期间通过"minidle"字段设置），集群将在40秒内启动。当集群运行时，池将回填更多空闲实例，以保持最小的空闲实例计数。一旦集群使用完这些实例，它们将返回到池中，供下一个集群使用。超过最小空闲计数的空闲实例在空闲"空闲实例自动终止"超时时间（默认为60分钟）后终止。结论数据库池提高了数据工程师和数据分析师的生产力。使用池，Databricks客户消除了缓慢的集群启动和自动扩展时间。数据工程师可以减少在数据管道中运行短期作业所需的时间，从而为下游团队提供更好的sla。数据分析团队可以更快地扩展集群以减少查询执行时间，增加下游报告的最近性。池允许团队快速迭代和创新，使他们更接近实时分析。所有这些都是可能的，同时降低了Databricks的许可成本，使得部署这个特性变得不费脑筋。开始使用Databricks池要了解如何部署这个特性，请阅读这里的Databricks Pools文档。如果您还没有数据块，请在此处开始试用，并使用此处的快速入门指南。相关资源https://docs.databricks.com/clusters/instance-pools/index.htmlhttps://databricks.com/glossary/what-is-databricks-runtimehttps://docs.databricks.com/clusters/index.htmlhttps://databricks.com/session/virtualization-apache-spark 免费试用Databricks。今天就开始吧

本文地址： /zhuji/3281.html