分布式数据库_中国全文期刊数据库_怎么样

小七 2019年10月25日 21:23 141 0

这是来自andirudh Ramanathan和Palak Bhatia的社区博客，他们分别是Google的软件工程师和产品经理，在Kubernetes团队工作。他们是为apachespark2.3提供本地Kubernetes支持的公司之一。这篇文章被交叉贴在博客.kubernetes.io库伯内特斯与大数据开源社区在过去的一年里一直致力于为Kubernetes的数据处理、数据分析和机器学习工作负载提供一流的支持。Kubernetes中新的可扩展性特性，如定制资源和定制控制器，可用于创建与单个应用程序和框架的深度集成。传统上，数据处理工作负载是在像YARN/Hadoop堆栈这样的专用设置中运行的。但是，kueteberns可以简化集群对所有资源的控制。具有原生Kubernetes支持的apachespark2.3结合了两个著名的开源项目中的佼佼者——apachespark，一个用于大规模数据处理的框架；和Kubernetes。apachespark是数据科学家的重要工具，为从大规模数据转换到分析到机器学习的各种应用程序提供了一个健壮的平台。数据科学家正在集体采用容器，通过实现诸如打包依赖项和创建可复制工件等好处来改进其工作流。考虑到Kubernetes是管理容器化环境的事实上的标准，在Spark中支持kubernetesapi是一种自然的适合。从Spark 2.3开始，用户可以在现有的Kubernetes1.7+集群中运行Spark工作负载，并利用ApacheSpark管理分布式数据处理任务的能力。apachespark工作负载可以直接使用Kubernetes集群，通过名称空间和配额以及诸如可插拔授权和日志记录等管理特性来实现多租户和共享。最重要的是，它不需要在Kubernetes集群上进行任何更改或新安装；只需创建一个容器映像，并为Spark应用程序设置正确的RBAC角色，就可以完成了。具体地说，Kubernetes中的本机Spark应用程序充当一个自定义控制器，它根据Spark调度器的请求创建Kubernetes资源。与在Kubernetes中以独立模式部署apachespark不同，本机方法提供了对Spark应用程序的细粒度管理、改进的弹性以及与日志记录和监视解决方案的无缝集成。社区也在探索高级用例，例如管理流式工作负载和利用像Istio这样的服务网格。要在Kubernetes集群上亲自尝试，只需下载apachespark2.3官方版本的二进制文件。例如，下面，我们将描述运行一个简单的Spark应用程序来计算三个Spark执行器的数学常数Pi，每个执行器都运行在单独的pod中。请注意，这需要运行kubernetes1.7或更高版本的集群、配置为访问它的kubectl客户机、默认命名空间和服务帐户所需的RBAC规则。$kubectl集群信息Kubernetes大师正在https://xx.yy.zz.ww$bin/spark提交\--k8s大师：//https://xx.yy.zz.ww\--部署模式群集\--名称spark pi\--班级org.apache.spark网站.示例.SparkPi\--形态spark.executor.instances=5\--形态spark.kubernetes.容器.image=\--形态spark.kubernetes司机.pod.name=火花-pi驱动器\local:///opt/spark/examples/jars/spark-examples_2.11-2.3.0.jar要查看在集群上创建的Spark资源，可以在单独的终端窗口中使用以下kubectl命令。$kubectl get pods-l'spark role in（driver，executor）'-w名称就绪状态重新启动年龄火花pi驱动器1/1运行0 14sspark-pi-da1968a859653d6bab93f8e6503935f2-exec-1 0/1挂起0 0s...可以通过运行以下命令在作业执行期间流式传输结果：$kubectl logs-f spark pi驱动程序当应用程序完成时，您应该在驱动程序日志中看到计算出的Pi值。在Spark 2.3中，我们首先支持用Java和Scala编写的Spark应用程序，并支持来自各种数据源（包括HTTP、GCS、HDFS等）的资源本地化。我们还密切关注SCAR执行器的故障和恢复语义，为将来的建立提供了坚实的基础。现在就开始学习开源文档吧。参与进来在不久的将来有许多令人兴奋的工作要做。我们正在积极开发诸如动态资源分配、集群内依赖项分段、对PySpark&SparkR的支持、对Kerberized HDFS集群的支持，以及客户机模式和流行的笔记本电脑的交互式执行环境。对于那些喜欢Kubernetes声明式管理应用程序的人来说，我们还为spark submit开发了一个Kubernetes操作符，它允许用户声明性地指定和提交spark应用程序。我们才刚刚开始！我们希望你能参与进来，帮助我们进一步发展项目。加入spark dev和spark用户邮件列表。在Kubernetes组件下的apachespark JIRA中提交一个问题。非常感谢apachespark和Kubernetes的贡献者，他们分布在多个组织（Google、Databricks、Red Hat、Palantir、Bloomberg、Cloudera、PepperData、Datalayer、HyperPilot等）中，他们花了数百个小时来完成这项工作。我们期待看到更多的人为这个项目做出贡献，并帮助它进一步发展。免费试用Databricks。今天就开始吧

本文地址： /zhuji/3080.html