域名交易_cdn引入_优惠

小七 2019年10月25日 21:23 141 0

使apachespark成为最快的开源流引擎

一年前，我们开始在apachespark中构建结构化流，作为开发连续应用程序的一种新的、更简单的方法。这种新方法不仅使构建端到端流应用程序变得容易，因为它公开了一个API来编写流式查询，就像编写批处理查询一样，而且它还通过确保一次语义、执行增量状态聚合以及跨源和汇提供数据一致性来处理流式复杂性。一流的性能正如我们今天早上在Spark Summit 2017上展示的，结构化流媒体不仅是最简单使用的流引擎，而且对于许多工作负载来说也是最快的！通过利用Catalyst查询优化器和Tungton执行引擎所做的所有工作，结构化流将Spark SQL的效率提升到实时流。在我们的基准测试中，我们在广泛使用的Yahoo！上显示了比其他流行的流媒体引擎5倍或更好的吞吐量！流式基准测试。上面显示了运行在框架中生成数据的基准测试的修改版本时的比较。我们在类似的设置下运行，使用10台运行Spark 2.2.0-RC3的r3.x大型计算机（40个内核）。为了让您重现这些结果，我们将很快发布一个blog，其中包含可以在Databricks上运行的完整源代码。注意，对于Kafka流，数据仍然是从持久存储中读取的，因为这是唯一支持的模式。同类最佳延迟当然，吞吐量只是评估流引擎的一个指标。延迟对于时间敏感的应用程序也很重要。到目前为止，最小可能的延迟都是由基于microbatch的Spark Streaming架构限定的。然而，从一开始，我们就精心设计了结构化流的API，使其不受底层执行引擎的影响，从而消除了API中批处理的概念。在Databricks，我们还致力于消除引擎中的批处理。今天，我们很高兴提出一种新的扩展，连续处理，它也可以消除微批量执行。正如我们今天上午在Spark Summit上演示的，这种新的执行模式允许用户在许多重要工作负载下达到亚毫秒级的端到端延迟，而不会改变他们的Spark应用程序。我们已经构建了连续处理的第一个工作版本，并期待着与社区合作，将此扩展贡献给apachespark。云端高效流媒体Databricks的客户可以通过Databricks Runtime 3.0 beta版访问最新和最好的流媒体功能，其中包括Apache Spark的以下新功能：使用[flat]MapGroupsWithState支持任意复杂的有状态处理，允许开发人员编写定制的有状态聚合，如会话或连接两个流。支持以流或批处理方式读写ApacheKafka中的数据，使开发人员能够将转换后的流发布到上游复杂数据管道的后续阶段，或实时更新仪表板。支持生产监控和警报管理，为工程师提供调查指标、检查查询进度以及使用第三方警报平台编写高级监控应用程序的方法。除了上游改进之外，Databricks Runtime 3.0还专门针对云部署优化了结构化流，包括以下用于运行云工作负载的增强：通过将一次触发模式与Databricks作业调度器相结合，大大降低了成本。使用集成的吞吐量和延迟指标轻松监控生产流作业。此外，还支持另一个来自Amazon Kinesis的流数据源。准备生产最后，我们很高兴地宣布，我们Databricks现在认为结构化流媒体已经准备好投入生产，并且得到了全面的支持。在Databricks，我们的客户已经在使用结构化流媒体，仅在上个月就处理了超过3万亿条记录。阅读更多为了解释我们和我们的客户如何大规模使用结构化流媒体，我们撰写了六个博客，涵盖结构化流媒体的许多关键方面：apachespark2.1中使用结构化流的实时流ETL在ApacheSpark2.1中使用结构化流处理复杂的数据格式在apachespark2.2中用结构化流处理apachekafka中的数据apachespark结构化流中的事件时间聚合与水印技术将apachespark的结构化流媒体应用到生产中使用Databricks作业调度器的一次触发模式免费试用Databricks。今天就开始吧

本文地址： /zhuji/3389.html