云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

域名解析_服务器瘫痪_免费

小七 141 0

宣布Databricks Runtime 4.1

我们最近发布了由apachespark提供支持的新Databricks运行时版本4.1™. 版本4.1提高了来自S3或Parquet等源的读/写性能,改进了缓存,并对Databricks Delta预览进行了大量质量和特性改进,重点是更快的查询执行和自适应模式和类型验证。如果您正在参加我们在azuredatabricks或Amazon的AWS上预览Databricks Delta,强烈建议您立即升级到4.1版本。让我们仔细看看其中的一些改进:更快的查询执行:这方面有许多改进,有利于所有查询,如代码生成增强。以下是一些具体的亮点。Stats&Indexing(Delta):Databricks Delta Stats集合使查询执行更加智能。在这个版本中,收集这些数据变得更加有效。在我们的内部测量中,我们看到统计数据收集时间的改进超过40%。更快的优化(Delta):OPTIMIZE命令通过合并文件提高读取速度。在这个版本中,OPTIMIZE现在并行执行-大大加快了优化表所需的时间。使用LIMIT(Delta)降低延迟:在LIMIT下推方面也有改进,减少了中间结果集的大小。改进的流吞吐量(Delta):在这个版本中,我们还进一步降低了过滤器以提高流的效率。更快的更新、删除和合并(Delta):在Delta中使用UPDATE、DELETE和MERGE语句的写操作现在可以使用stats并执行数据跳过以降低延迟执行。管理模式验证和演化(Delta):验证数据是保持数据管道健壮的重要部分。然而,真实世界的数据结构会随着时间的推移而变化。Databricks Delta现在提供了两种形式的模式演化:automatic,它可以在新列出现时生成所需的DDL;或者static,它使用标准ALTER TABLE DDL提供更好的控制。您可以在这里了解有关模式验证的更多信息。更快的读写速度:更快的拼花:我们现在有一个改进的解码器,在4.1版中默认打开。在我们对aws3进行的内部测量中,新的拼花板阅读器与IO缓存相结合,在MB/sec上大约快了3倍!改进的S3访问:s3select为S3数据的检索带来了效率。使用选择性检索,当您读取JSON或CSV属性的子集时,在线的数据更少。您可以在这里阅读有关s3select的更多信息。Databricks Delta仍然是私有预览版,但是版本4.1的更新代表了一个候选版本,以期待即将到来的通用可用性(general availability,GA)发行版。如果您还没有参与Databricks Delta预览,您仍然可以在这里注册。这篇文章只涉及到4.1版本中一些精选的改进。如果您想了解完整的改进,请访问这里的版本4.1的发行说明。如果您想了解更多关于这里的特性和Databricks运行时的信息,请访问我们在旧金山举行的Spark+AI峰会的展位。来看看Spark、Data和AI的新功能吧!现在注册。免费试用Databricks。今天就开始吧