中间件_cad百度云下载_免费领

小七 2019年10月25日 21:23 141 0

现在介绍Databricks:Databricks Runtime 7的技术预览，包括apachespark3.0的预览

介绍Databricks Runtime 7.0测试版我们很高兴地宣布，apachesparktm 3.0.0-preview2版本将作为新的Databricks运行时7.0测试版的一部分在Databricks上发布。3.0.0-preview2版本是开源社区为Spark生态系统提供新功能、性能提升和扩展兼容性的巨大贡献的结晶。使用预览就像在启动集群时选择"7.0beta"版本一样简单。即将发布的apachespark3.0建立在spark2.0的许多创新的基础上，带来了新的想法，同时也延续了开发中的长期项目。我们的愿景一直是统一数据和人工智能，我们继续投资使Spark强大到足以解决您最棘手的大数据问题，但也易于使用，因此您实际上能够做到。这不仅适用于数据工程师和数据科学家，也适用于使用sparksql执行SQL工作负载的任何人。超过3000张Jira的罚单是通过Spark的新版本解决的，虽然我们不能在这篇文章中深入讨论所有这些新功能，但是我们想强调一下这个版本中的一些项目。自适应SQL查询优化sparksql是Spark的引擎。借助Catalyst optimizer，基于DataFrame、Dataset、SQL、Structured Streaming、MLlib等第三方库构建的Spark应用程序都得到了优化。为了生成好的查询计划，查询优化器需要了解数据特征。在大多数情况下，数据统计信息通常是不存在的，尤其是当统计数据收集比数据处理本身更昂贵时。即使有统计数据，统计数据也可能过时。由于Spark的存储和计算分离，数据到达的特性是不可预测的。由于所有这些原因，对于Spark来说，运行时自适应性比传统系统更加重要。此版本为动态分区修剪（DPP）引入了新的自适应查询执行（AQE）框架和新的运行时筛选：AQE框架具有三个主要特点：1）动态合并洗牌分区；2）动态切换连接策略；3）动态优化倾斜连接。基于没有统计数据的1TB TPC-DS基准测试，Spark 3.0可以为q77提供8倍的加速，q5的2倍加速，以及另外26个查询超过1.1倍的加速。可以通过设置SQL配置来启用AQEspark.sql.adaptive.enabled为true（在Spark 3.0中默认为false）。当优化器在编译时无法识别它可以跳过的分区时，就会发生DPP。这在星型模式中并不少见，星型模式由一个或多个引用任意数量维度表的事实表组成。在这样的连接操作中，我们可以通过识别筛选维度表所产生的分区来修剪连接从事实表读取的分区。在TPC-DS基准测试中，102个查询中有60个显示了2倍到18倍的显著加速。更丰富的API和功能为了支持新的用例和简化Spark应用程序的开发，这个版本提供了新的功能并增强了现有的特性。增强型熊猫UDF。Pandas udf最初是在Spark 2.3中引入的，用于扩展PySpark中的用户定义函数，并将Pandas api集成到PySpark应用程序中。但是，当添加更多的UDF类型时，现有的接口很难理解。这个版本引入了新的pandas UDF接口和Python类型提示。此版本添加了两个新的pandas UDF类型，iterator of series to iterator of series和iterator of multi series to iterator of series，以及三个新的pandas函数api，grouped map、map和co-grouped map。一组完整的连接提示。虽然我们不断地使编译器变得更聪明，但不能保证编译器总能为每种情况做出最佳决策。连接算法的选择是基于统计和启发式的。当编译器无法做出最佳选择时，用户仍然可以使用连接提示来影响优化器选择更好的计划。这个版本通过添加新的提示来扩展现有的连接提示：SHUFFLE_MERGE、SHUFFLE_HASH和SHUFFLE_REPLICATE l。新的内置函数：有32个新的内置函数，并且在scalaapi中增加了高阶函数。在这些内置函数中，添加了一组特定于映射的内置函数[transform_key，transform_value，MAP_entries，MAP_filter，MAP_zip with]，以简化数据类型MAP的处理。增强的监视功能此版本包含许多增强功能，使监视更加全面和稳定。高效的增强对性能没有太大的影响。结构化流媒体的新UI:structured streaming最初是在Spark 2.0中引入的。此版本添加了专用的新Spark UI，用于检查这些流作业。这个新的用户界面提供了两组统计信息：1）完成流式查询作业的汇总信息；2）关于流式查询的详细统计信息，包括输入速率、处理速率、输入行数、批处理持续时间、操作持续时间等。增强的EXPLAIN命令：阅读计划对于理解和优化查询至关重要。现有的解决方案看起来杂乱无章，每个运算符的字符串表示可能非常宽，甚至会被截断。这个版本用一种新的格式化模式对其进行了增强，还提供了将计划转储到文件中的功能。可观察的度量：连续监视数据质量的变化是管理数据管道的一个非常理想的特性。此版本为批处理和流式应用程序引入了这样的功能。可观察度量被命名为任意聚合函数，可以在查询（dataframe）上定义。一旦数据帧的执行到达完成点（例如，完成批处理查询或到达流式epoch），就会发出一个命名事件，其中包含自上一个完成点以来处理的数据的度量。尝试运行时7.0测试版中的Spark 3.0预览版即将发布的apachespark3.0为Spark生态系统带来了许多新功能、性能改进和扩展的兼容性。除了在apachespark上对数据工程、数据科学、数据分析和机器学习工作负载的核心功能和性能改进外，这些改进还显著改善了SQL分析人员使用Spark的体验，包括报告作业和交互式查询。我们再次感谢Spark社区为实现这一目标所做的贡献。这篇博客文章只总结了这个版本中的一些显著特性。敬请关注，我们将发布一系列技术博客，对这些功能进行更深入的解释。在我们的预览网络研讨会上了解更多关于Spark 3.0的信息。如果您想在Databricks Runtime 7.0中试用即将推出的Apache Spark 3.0预览版，请注册一个免费试用帐户。免费试用Databricks。今天就开始吧

本文地址： /zhuji/2932.html