云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

网站服务器_mysql数据库编码设置_限量秒杀

小七 141 0

运行apachespark作业的最简单方法

最近,Databricks为我们的云服务添加了一个新特性Jobs。您可以在这里找到此功能的详细概述。这个特性使人们可以在Amazon的EC2上以编程方式运行apachespark作业,比以往任何时候都容易。在这个博客中,我将提供这个功能的快速教程。什么是工作?工作特性非常灵活。用户不仅可以像任何Spark JAR一样运行作业,还可以运行使用Databricks Cloud创建的笔记本。此外,笔记本可以用作脚本来创建复杂的管道。如何运行作业?如下图所示,Databricks Cloud提供了一个直观、易于使用的界面来创建作业。创建作业时,需要指定运行作业的群集的名称和大小。由于Spark通常由内存量决定其性能,因此将要求您输入集群的内存容量。Databricks Cloud将在运行作业时自动实例化具有指定容量的集群,方法是重用现有集群或创建一个新集群,然后在作业完成后关闭集群。接下来,您需要指定要作为作业运行的笔记本或JAR、作业的输入参数(JAR和notebooks都可以接受输入参数)以及作业的配置参数:调度、超时、警报和希望作业使用的EC2实例的类型。接下来,我们依次考虑这些配置参数。调度:用户可以定期运行任何作业,只需指定开始时间和间隔,如下所示。超时:用户可以选择设置一个超时,指定在终止作业之前允许运行的时间。当处理失控作业时,此功能特别有用,并确保定期作业的实例在下一个实例开始之前终止。如果没有指定超时,并且作业实例占用的时间超过调度周期,则在当前实例终止之前不会启动新实例。 警报:运行生产作业时,在发生任何重大事件时向用户发出警报是至关重要的。Databricks Cloud允许用户指定他们希望通过电子邮件收到警报的事件:作业何时开始、何时成功完成或何时因错误而结束。资源类型:最后,用户可以指定是使用spot实例还是按需实例来运行作业。 历史和结果作业UI提供了一种检查给定作业每次运行状态的简单方法。下图显示了同一作业多次运行的状态。i、 例如,每次运行开始时,需要多长时间,以及是否成功终止。通过单击任何"runx"链接,您可以立即看到相应运行的输出,包括其输出日志和错误(如果有的话)。下图显示了上面"运行6"的输出。类似地,下图显示了将笔记本作为作业运行的输出。顺便说一句,输出与手动运行笔记本相同。 摘要我希望这次简短的旅行能让您信服,Databricks云提供了一个强大但易于使用的特性,不仅可以运行任意Spark作业,还可以运行Databricks Cloud创建的笔记本电脑。如果你想用Databricks云运行自己的作业,可以在这里注册一个帐户。额外资源其他Databricks Cloud how tos可在以下网址找到:利用Databricks云分析Apache访问日志免费试用Databricks。今天就开始吧