服务器_微软私有云解决方案_测评

小七 2019年10月25日 21:23 141 0

Databricks Runtime 3.0测试版提供了云优化的ApacheSpark

Databricks提供的一个主要价值是处理数据的机器集群的自动供应、配置和调优。在这些机器上运行的是Databricks运行时构件，包括apachespark和其他软件，如Scala、Python、DBIO和DBES。对于客户来说，这些构件提供了价值：它们减轻了手动扩展的责任；它们加强了安全性；提高了I/O性能；它们提供了快速发布版本。过去，运行时是与上游的apachespark联合版本的。今天，我们正在改变到一个新的版本方案，该方案将Databricks运行时版本与Spark版本分离，并允许我们将Databricks运行时的主要特性更新清楚地传达给我们的客户。我们也在制作Databricks Runtime 3.0的beta版，这是下一个主要版本，包括apachespark2.2的最新候选版本，现在所有客户都可以使用。（请注意，Spark 2.2尚未由Apache正式发布。）客户可以在创建新群集时选择此版本。在这篇博文中，我们将解释什么是Databricks运行时，它提供的附加值，并预览即将到来的3.0版本中的一些主要更新。Databricks运行时和版本控制Databricks运行时是在Databricks管理的机器集群上运行的一组软件构件。它包括Spark，但也添加了许多组件和更新，这些组件和更新大大提高了大数据分析的可用性、性能和安全性。主要区别在于：DBIO的性能更好：Databricks I/O模块（DBIO）利用垂直集成的堆栈显著提高Spark在云中的性能。DBE具有更强的安全性：Databricks Enterprise Security（简称DBES）模块增加了静态和动态数据加密、细粒度数据访问控制和审计等功能，以满足标准遵从性（如HIPAA、SOC2）和大型企业所期望的最严格的安全要求。显著降低操作复杂度：通过计算资源和本地存储的自动伸缩等功能，我们将Spark置于"自动驾驶"模式，显著降低了操作复杂性和管理成本。快速发布和早期访问新功能：与上游开源版本相比，Databricks的SaaS产品有助于更快的发布周期，为我们的客户提供开放源代码版本中尚未提供的最新功能和错误修复。现有的Databricks客户可能认识到Databricks运行时被称为"cluster image"，并且在这个版本之前与Spark进行了联合版本控制，例如，在Databricks平台中，Spark 2.1行出现在"2.1.0-db1"、"2.1.0-db2"、"2.1.0-db3"和"2.1.1-db4"。虽然Spark是运行时的一个主要组件，但是旧的联合版本控制方案有标记限制。新版本方案将Databricks运行时版本与Spark版本分离，并允许我们向客户清楚地传达Databricks运行时的主要特性更新。实际上，Databricks Runtime 3.0beta包含了spark2.2的候选版本及其所有构件，这些构件将在我们合并bug修复后自动更新，直到6月份正式提供为止。接下来，我们将讨论这个运行时版本中的主要特性和改进。性能和DBIODatabricks Runtime 3.0在DBIO中包含了许多改进性能、数据完整性和安全性的更新：更高的S3吞吐量：提高Spark作业的读写性能。更高效的解码：在解码常见格式时提高CPU效率。数据跳过：允许用户利用数据文件的统计信息在查询处理中更有效地修剪文件。事务性写入S3：将事务性（原子性）写入（包括附加和新写入）特性添加到S3。投机可以安全地打开。作为DBIO工件的一部分，Amazon Redshift连接器增强功能包括：高级下推到Redshift：包含limit、samples和aggregations的查询片段现在可以下推到Redshift中执行，以减少从Redshift集群到Spark的数据移动。使用Redshift的自动端到端加密：静态和传输中的数据可以自动加密。很快，我们将发布一个博客，展示在TPC-DS基准测试中观察到的性能改进。为了给你一个提示，我们比较了运行在EMR上的Databricks Runtime 3.0和Spark，Databricks在每一个查询上都更快，在99个复杂的TPC-DS查询上总的geomean改进了5倍。超过10个查询在运行时提高了10倍以上。一位客户测试了最新版本，发现她的查询比Spark的早期版本提高了4到60倍："演出非常精彩！我几乎可以指责你是一个随机数发生器，除非结果是正确的！"细粒度数据访问控制作为DBES中针对SQL和dataframeapi的细粒度数据访问控制的新功能的一部分，数据库管理员和数据所有者现在可以在目录中的数据库、表、视图和函数上定义访问控制策略，以限制访问。使用标准SQL语法，可以在任意粒度的视图上定义访问控制策略，即行级、列级和聚合级。这与传统数据库（如Oracle或microsoftsqlserver）中提供的功能类似，但适用于所有受支持语言的SQL和dataframeapi。更好的是，它的实现方式不会对性能造成任何影响，也不需要安装任何附加软件。例如，下面的示例授予用户rxin访问每个部门的总工资的权限，但不授予单个员工的工资。创建表employee（姓名字符串、部门字符串、salary double）；创建"查看部门薪资"为"选择部门"，按部门从员工组中合计（薪资）薪资总额；向瑞信发放部门工资选择权；在接下来的几周里，我们将发布一系列博客和相关文档，详细介绍细粒度数据访问控制。结构化流媒体结构化流媒体一年前被引入Spark，作为构建连续应用程序的新方法。它不仅简化了端到端流式应用程序的构建，因为它公开了一个API来编写流式查询，就像编写批处理查询一样，它还通过确保一次语义、执行增量有状态聚合和提供数据一致性来处理流式复杂性。Databricks Runtime 3.0包含Spark 2.2的以下新功能：使用[flat]MapGroupsWithState支持任意复杂的状态处理支持从Apache Kafka以流或批处理方式读写数据除了上游改进之外，Databricks Runtime 3.0还专门针对云部署进行了优化，包括以下增强：通过将一次触发模式与Databricks作业调度器相结合，可以显著降低成本集成吞吐量和延迟度量的生产监控支持来自亚马逊Kinesis的流数据最后，在处理了生产流中的1000亿条记录之后，Databricks现在也在考虑结构化流GA，为我们的客户准备生产。其他值得注意的更新SQL中用于嵌套数据处理的高阶函数：公开了处理嵌套数据类型（数组、结构）的强大而富有表现力的方法。更多详细信息，请参阅此博客文章。改进的多租户：当多个用户在同一个集群上并发运行工作负载时，Databricks Runtime 3.0确保这些用户可以公平地共享资源，因此运行短期交互式查询的用户不会被运行大型ETL作业的用户阻塞。自动缩放本地存储：Databricks Runtime 3.0可以自动配置本地存储并按需缩放。用户不再需要估计和调配EBS卷。ApacheSpark提供的基于成本的优化器：Spark 2.2中最重要的更新是引入了基于成本的优化器。此功能现在在Databricks Runtime 3.0beta中可用（默认情况下关闭）。结论Databricks Runtime 3.0将包括Spark 2.2和DBIO、DBE和结构化流媒体的1000多项改进，使数据分析更简单、更安全、更高效。虽然我们不建议在这个测试版上增加任何生产工作负载，但我们鼓励您试一试。beta版将每天自动更新，因为我们在上游开源apachespark以及其他组件中加入了bug修复，直到6月份正式发布。今天就报名参加Databricks试用版来测试全部功能。免费试用Databricks。今天就开始吧

本文地址： /zhuji/3378.html