云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

全站加速_分布式存储公司排名_怎么买

小七 141 0

在HashiCorp Nomad上运行Apache Spark

apachespark是一个流行的数据处理引擎/框架,它的设计是为了使用第三方调度器。然而,可用的调度程序涉及到一定程度的复杂性,这对于许多潜在的Spark用户来说是不可取的。为了填补这一空白,我们很高兴地宣布,HashiCorp Nomad生态系统现在包含了apachespark版本,它本机集成了Nomad作为Spark集群管理器和调度器。»为什么要在游牧民身上激起火花?Nomad的设计(灵感来自Google的Borg和Omega)已经启用了一系列功能,使其非常适合运行分析应用程序。特别相关的是它对批处理工作负载和并行化、高吞吐量调度的本地支持(更多关于Nomad的调度器内部结构)。Nomad也易于设置和使用,这有可能减轻Spark用户的学习曲线和操作负担。易用性相关的关键功能包括:单一二进制部署,无外部依赖性一个简单直观的数据模型声明性工作规范支持开箱即用的高可用性和多数据中心联合Nomad还与HashiCorp consur和HashiCorp Vault无缝集成,用于服务发现、运行时配置和机密管理。»工作原理在Nomad上运行时,为应用程序运行任务的Spark执行器,以及(可选)应用程序驱动程序本身,在Nomad作业中作为Nomad任务运行。用户可以按照通常的方式提交Spark应用程序。在本例中,spark submit命令用于在集群模式下针对Nomad运行SparkPi示例应用程序:$spark提交--类org.apache.spark网站.示例.SparkPi\--游牧大师\--部署模式群集\--形态spark.nomad.sparkDistribution=http://example.com/spark.tgz公司\用户可以通过显式设置配置属性(参见上文)或使用自定义模板作为起点,自定义Spark创建的Nomad作业:作业"模板"{元{"foo"="酒吧"}group"执行者组名"{task"执行者任务名称"{元{"spark.nomad.角色"="执行人"}环境{"BAZ"="什么东西"}}}}作业模板可用于添加元数据或约束、设置环境变量、添加侧车任务以及利用conver和Vault集成。Nomad/Spark集成还支持细粒度的资源分配、HDFS和对应用程序输出的连续监视。»入门我们的官方apachespark集成指南是最好的入门方法。您还可以使用Nomad的Terraform配置示例和embedded Spark quickstart,在AWS上对集成进行测试。支持Nomad的构建目前可用于Spark 2.1.0和2.1.1。