云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

谷歌云_湖南企业邮箱_

小七 141 0

Databricks为生产工作负载启动“作业”功能

Databricks现在包含了一个名为Jobs的新特性,支持运行由独立的Spark应用程序组成的生产管道。作业包括一个调度器,它使数据科学家和工程师能够为他们的生产作业指定一个周期性的计划,该计划将根据指定的计划执行。笔记本作为工作除了支持运行独立的apachespark应用程序之外,Jobs特性还提供了一种独特的功能,允许将Databricks笔记本作为作业运行。也就是说,可以指定一个作业来使用现有的笔记本,然后根据指定的时间表执行该作业。这使得交互式勘探和生产之间实现了无缝过渡。因此,科学家们可以像以前那样使用交互式数据进行探索。一旦笔记本得到充分开发,就可以将其转换为生产使用,而不需要任何耗时的代码重写。每次运行作业的输出(包括图形输出)也存储为一个笔记本,该笔记本可以打开并用作任何其他笔记本,从而允许交互式调试或进一步的事后探索。通过这种方式,数据科学家可以反复迭代和改进他们的工作,而不必花费时间在不同的系统之间重写和移动代码。  笔记本作为工作流除了将笔记本作为作业运行外,用户还可以将编译后的应用程序和库作为作业运行。我们发现用户经常使用笔记本来指定调用其他独立作业的工作流。使用简单的if语句和异常处理,可以方便地用Python等语言编写此类工作流的脚本。以这种方式使用笔记本来指定生产工作流是非常强大的,因为几乎任何模式都可以用笔记本来表达。灵活的群集支持作业与Databricks的现有集群集成。可以指定作业以使用现有的Databricks集群。此外,可以将作业指定为拥有自己的专用集群,该集群在每次运行时启动并关闭。这将确保作业获得自己的专用集群,将其与其他用户和作业引起的错误隔离开来。集群可以在AWS按需实例上启动,也可以在便宜得多的spot实例上启动。此外,还支持一种混合模式,即按需回退(fallback on demand),该模式尝试启动大多数集群机器上的现场实例,但如果spot实例的供应有限,则将按需实例回退。通过这种方式,组织可以通过使用spot实例确保获得他们请求的集群,同时尽可能降低成本。通知支持job特性附带了一个通知系统,可以配置为在生产作业完成或失败时向一组用户发送电子邮件。这一点尤其重要,因为作业没有人在循环中运行,一旦出现问题就需要注意。jobs特性的推出旨在进一步改善Databricks的端到端用户体验。笔记本现在可以用于生产工作负载,此外还可以用作库(笔记本可以称为其他笔记本)、仪表板和在线协作。尽管这是Jobs特性的第一个正式发布版,但我们已经有几个客户在生产环境中使用它作为我们早期采用程序的一部分。我们很乐意听到您的反馈-请让我们知道您对这个新功能的看法!免费试用Databricks。今天就开始吧