云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

企业网站_虚拟主机安装_优惠券

小七 141 0

发布Databricks Runtime 5.0

我们很高兴宣布Databricks Runtime 5.0的全面可用性。此版本包含Spark 2.4。此版本在平台的关键领域提供了显著的性能提升。基准测试工作负载表明,总执行时间提高了16%,而Databricks Delta受益于对元数据缓存的实质性改进,将查询延迟提高了30%。除了这些强大的性能改进之外,我们在这个版本中加入了许多新特性和改进。我现在将重点介绍其中的一些。增强了对Databricks Delta的合并、删除和更新写操作通过Databricks Runtime 5.0,我们改进了MERGE命令的用法:带有Databricks Delta的可伸缩MERGE命令:对合并可以执行的插入和更新的数量不再有限制。我们消除了以前允许合并可扩展到数十亿行的限制。现在还可以对SCD类型1和类型2查询使用MERGE。scdtype2查询通过为维表中给定的自然键创建多个记录来跟踪历史数据。Databricks Delta现在支持的一个典型用例可能是这样的:给定一个包含客户列表及其当前地址的表,SCD类型2查询允许您更新客户的当前地址,并在一个查询中维护客户以前地址的记录以及活动日期范围。有关MERGE和这些新功能的更多信息,请参阅参考文档。现在,删除和更新命令的WHERE子句支持子查询。Databricks Delta现在支持通常放在WHERE子句中进行删除和更新的任何子查询,例如以下示例:--例1从所有事件中删除会议时间在哪里2001-01-01)有关UPDATE和DELETE命令的更多信息,请参阅Databricks Delta文档。使用带Databricks Delta的优化命令改进读取除了此版本中的新功能外,我们还在Databricks Delta的改进上投入了大量资金,包括改进OPTIMIZE命令的性能和稳定性:OPTIMIZE命令现在尽快提交批处理,在以前的版本中,这是在最后执行的。这将提高优化时间和性能。我们减少了并行优化运行的默认线程数。这大大提高了大型表的优化性能。Databricks Runtime 5.0通过避免在将数据写入分区表时对数据进行不必要的排序,从而加快了优化写入的速度。从Databricks Runtime 5.0开始,OPTIMIZE ZORDER现在是增量的,不再需要重写以前由同一列Z排序的数据文件。我们改进了Databricks Delta查询的隔离级别。任何对单个Databricks Delta表(self joins等)有多个引用的查询都将从同一个快照中读取,即使该表有并发更新。最后,我们要指出,通过在Spark驱动节点上缓存元数据,我们已经为小型Databricks Delta表(