云数据库_代理服务器是什么意思_多少钱

小七 2019年10月25日 21:23 141 0

ApacheSpark1.5预览版现已在Databricks中提供

我们很高兴地宣布，从今天开始，apachespark1.5.0将作为Databricks的预览版提供。我们的用户现在可以选择使用Spark 1.5或以前的Spark版本配置集群，只需点击几下。QA.5将在社区正式发布，预计将在几周内正式发布。鉴于Spark的快速开发，我们认为让我们的用户尽快利用新的开发和特性是很重要的。对于传统的内部部署软件，从供应商那里接收软件更新可能需要几个月，有时甚至几年。使用Databricks的云模型，我们可以在几小时内推送更新，并让用户尝试他们选择的Spark版本。有什么新消息吗？Spark的最后几个版本主要通过高级编程api（如数据帧、机器学习管道和R语言支持）使数据科学更易于访问。另一方面，Spark 1.5的大部分内容都集中在引擎盖下的改进，以提高Spark的性能、可用性和操作稳定性。spark1.5提供了wongton项目的第一阶段，这是一个新的DataFrames/SQL执行后端。通过代码生成和缓存感知算法，ProjectTungton通过开箱即用的配置提高了运行时性能。通过显式内存管理和外部操作，新的后端还降低了JVM垃圾收集的低效率，并提高了在大规模工作负载下的健壮性。在接下来的几周里，我们将撰写关于钨计划的文章。使用我的Spark和1.5万个组合键的组合查询，比较Spark配置的1.5万个记录。流式工作负载通常全天候运行，并且具有严格的稳定性要求。在这个版本中，Typesafe在Spark Streaming中引入了背压。有了这个特性，Spark Streaming可以动态控制数据摄取率，以适应处理负载中不可预测的变化。这使得流式应用程序能够更健壮地应对突发性工作负载和下游延迟。当然，spark1.5是来自80多个组织的220多个开源贡献者的工作，其中包含的内容远不止上述两个。一些例子包括：新的机器学习算法：多层感知器分类器，序列模式挖掘的前缀，关联规则生成等。改进的R语言支持和GLMs与R公式。在webui中更好地检测和报告内存使用情况。请继续关注未来的博客文章，包括发布内容以及对具体改进的深入探讨。如何使用它？启动spark1.5集群就像在Databricks的集群创建界面中选择spark1.5实验版本一样简单。一旦点击confirm，您将获得一个Spark集群，可以使用spark1.5.0并开始测试新版本。Databricks中的多个Spark版本支持还允许用户与现有的生产Spark集群并行运行spark1.5canary集群。您可以在这里找到Spark 1.5.0的"正在工作"文档。请注意，就像其他预览软件一样，Spark 1.5.0支持是实验性的。在接下来的几周里，我们会发现并修复一些错误和怪癖。好消息是你不必担心跟踪开发或升级自己。当我们发现并修复开源项目中的bug时，Databricks中的spark1.5选项也将自动更新。如果你遇到错误，请提交JIRA罚单报告。要试用Databricks，请注册30天免费试用。免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3683.html