企业网站_虚拟主机安装_优惠券

小七 2019年10月25日 21:23 141 0

发布Databricks Runtime 5.0

我们很高兴宣布Databricks Runtime 5.0的全面可用性。此版本包含Spark 2.4。此版本在平台的关键领域提供了显著的性能提升。基准测试工作负载表明，总执行时间提高了16%，而Databricks Delta受益于对元数据缓存的实质性改进，将查询延迟提高了30%。除了这些强大的性能改进之外，我们在这个版本中加入了许多新特性和改进。我现在将重点介绍其中的一些。增强了对Databricks Delta的合并、删除和更新写操作通过Databricks Runtime 5.0，我们改进了MERGE命令的用法：带有Databricks Delta的可伸缩MERGE命令：对合并可以执行的插入和更新的数量不再有限制。我们消除了以前允许合并可扩展到数十亿行的限制。现在还可以对SCD类型1和类型2查询使用MERGE。scdtype2查询通过为维表中给定的自然键创建多个记录来跟踪历史数据。Databricks Delta现在支持的一个典型用例可能是这样的：给定一个包含客户列表及其当前地址的表，SCD类型2查询允许您更新客户的当前地址，并在一个查询中维护客户以前地址的记录以及活动日期范围。有关MERGE和这些新功能的更多信息，请参阅参考文档。现在，删除和更新命令的WHERE子句支持子查询。Databricks Delta现在支持通常放在WHERE子句中进行删除和更新的任何子查询，例如以下示例：--例1从所有事件中删除会议时间在哪里2001-01-01）有关UPDATE和DELETE命令的更多信息，请参阅Databricks Delta文档。使用带Databricks Delta的优化命令改进读取除了此版本中的新功能外，我们还在Databricks Delta的改进上投入了大量资金，包括改进OPTIMIZE命令的性能和稳定性：OPTIMIZE命令现在尽快提交批处理，在以前的版本中，这是在最后执行的。这将提高优化时间和性能。我们减少了并行优化运行的默认线程数。这大大提高了大型表的优化性能。Databricks Runtime 5.0通过避免在将数据写入分区表时对数据进行不必要的排序，从而加快了优化写入的速度。从Databricks Runtime 5.0开始，OPTIMIZE ZORDER现在是增量的，不再需要重写以前由同一列Z排序的数据文件。我们改进了Databricks Delta查询的隔离级别。任何对单个Databricks Delta表（self joins等）有多个引用的查询都将从同一个快照中读取，即使该表有并发更新。最后，我们要指出，通过在Spark驱动节点上缓存元数据，我们已经为小型Databricks Delta表（

本文地址： /zhuji/3151.html