域名解析_服务器瘫痪_免费

小七 2019年10月25日 21:23 141 0

宣布Databricks Runtime 4.1

我们最近发布了由apachespark提供支持的新Databricks运行时版本4.1™. 版本4.1提高了来自S3或Parquet等源的读/写性能，改进了缓存，并对Databricks Delta预览进行了大量质量和特性改进，重点是更快的查询执行和自适应模式和类型验证。如果您正在参加我们在azuredatabricks或Amazon的AWS上预览Databricks Delta，强烈建议您立即升级到4.1版本。让我们仔细看看其中的一些改进：更快的查询执行：这方面有许多改进，有利于所有查询，如代码生成增强。以下是一些具体的亮点。Stats&Indexing（Delta）：Databricks Delta Stats集合使查询执行更加智能。在这个版本中，收集这些数据变得更加有效。在我们的内部测量中，我们看到统计数据收集时间的改进超过40%。更快的优化（Delta）：OPTIMIZE命令通过合并文件提高读取速度。在这个版本中，OPTIMIZE现在并行执行-大大加快了优化表所需的时间。使用LIMIT（Delta）降低延迟：在LIMIT下推方面也有改进，减少了中间结果集的大小。改进的流吞吐量（Delta）：在这个版本中，我们还进一步降低了过滤器以提高流的效率。更快的更新、删除和合并（Delta）：在Delta中使用UPDATE、DELETE和MERGE语句的写操作现在可以使用stats并执行数据跳过以降低延迟执行。管理模式验证和演化（Delta）：验证数据是保持数据管道健壮的重要部分。然而，真实世界的数据结构会随着时间的推移而变化。Databricks Delta现在提供了两种形式的模式演化：automatic，它可以在新列出现时生成所需的DDL；或者static，它使用标准ALTER TABLE DDL提供更好的控制。您可以在这里了解有关模式验证的更多信息。更快的读写速度：更快的拼花：我们现在有一个改进的解码器，在4.1版中默认打开。在我们对aws3进行的内部测量中，新的拼花板阅读器与IO缓存相结合，在MB/sec上大约快了3倍！改进的S3访问：s3select为S3数据的检索带来了效率。使用选择性检索，当您读取JSON或CSV属性的子集时，在线的数据更少。您可以在这里阅读有关s3select的更多信息。Databricks Delta仍然是私有预览版，但是版本4.1的更新代表了一个候选版本，以期待即将到来的通用可用性（general availability，GA）发行版。如果您还没有参与Databricks Delta预览，您仍然可以在这里注册。这篇文章只涉及到4.1版本中一些精选的改进。如果您想了解完整的改进，请访问这里的版本4.1的发行说明。如果您想了解更多关于这里的特性和Databricks运行时的信息，请访问我们在旧金山举行的Spark+AI峰会的展位。来看看Spark、Data和AI的新功能吧！现在注册。免费试用Databricks。今天就开始吧

本文地址： /zhuji/3095.html