微软云_如何构建企业网站_折扣

小七 2019年10月25日 21:23 141 0

介绍Delta引擎

今天，我们发布了Delta Engine，它将一个100%与Apache Spark兼容的矢量化查询引擎结合在一起，利用现代CPU架构，对Spark 3.0的查询优化器和缓存功能进行了优化，这些功能是Databricks Runtime 7.0的一部分启动的。这些特性一起显著提高了数据湖的查询性能，特别是Delta Lake支持的那些，使客户更容易采用和扩展lakehouse架构。扩展执行性能在过去几年里，一个重要的硬件趋势是CPU时钟速度已经趋于平稳。原因不在本博客的讨论范围之内，但我们必须找到新的方法来更快地处理数据，而不仅仅是原始的计算能力。最有效的方法之一是提高可并行处理的数据量。但是，需要对数据处理引擎进行专门的架构，以利用这种并行性。此外，随着业务发展速度的加快，数据团队得到的时间越来越少，无法对数据进行正确建模。为了获得更好的业务敏捷性，较差的建模会导致查询性能下降。当然，这并不是一个理想的状态，组织想要找到最大化敏捷性和性能的方法。宣布Delta引擎用于高性能查询执行Delta引擎通过三个组件加速了Delta湖的SQL和数据帧工作负载：一个改进的查询优化器，一个位于执行层和云对象存储之间的缓存层，以及一个用C++编写的本地矢量化执行引擎。改进的查询优化器扩展了Spark 3.0（基于成本的优化器、自适应查询执行和动态运行时过滤器）中已有的功能，提供了更高级的统计信息，使星型模式工作负载的性能提高了18倍。Delta Engine的缓存层会自动为用户选择要缓存的输入数据，并将其转换为CPU效率更高的格式，以更好地利用NVMe SSD的更高存储速度。这使几乎所有工作负载的扫描性能提高了5倍。然而，Delta引擎中最大的创新是本地执行引擎，我们称之为Photon，以应对数据团队当前面临的挑战。（我们知道。它是在引擎中的一个引擎中……）这个完全重写的数据块执行引擎是为了最大限度地提高现代云硬件的新变化带来的性能。它为所有工作负载类型带来性能改进，同时与opensparkapi保持完全兼容。在不久的将来，我们将在另一个博客中深入了解光子的工作原理，最重要的是，它是如何工作的。增量引擎入门通过将这三个组件连接在一起，我们认为客户将更容易理解Databricks代码中多个地方的改进如何聚合为数据湖上分析工作负载的显著更快的性能。改进后的查询优化器和缓存改进现在就可以使用了，在今年余下的时间里，我们将为越来越多的客户提供Photon。我们对Delta Engine为客户提供的价值感到兴奋。虽然节省的时间和成本已经很有价值，但它在lakehouse模式中的作用支持了数据团队如何设计他们的数据架构以提高统一性和简单性的新进展。免费试用Databricks。今天就开始吧

本文地址： /zhuji/2963.html