云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

CDN_手机域名解析失败_精选特惠

小七 141 0

Apache Spark 2.1简介

Spark峰会将于2017年2月7日至9日在波士顿举行。查看完整的日程安排,在票卖完之前拿到票!今天我们很高兴地宣布ApacheSpark2.1.0的可用性。此版本增加了对事件时间水印的支持和ApacheKafka0.10的支持,在结构化流的生产准备方面取得了显著的进步。此外,与之前的Spark版本相比,该版本更注重可用性、稳定性和完善性,解决了1200多个问题。这篇博文讨论了一些高级更改,以帮助您导航1200多个改进和错误修复:结构化流媒体的生产准备扩展SQL功能R语言中新的分布式机器学习算法结构化流媒体在Spark 2.0中引入的结构化流是用于构建连续应用程序的高级API。主要目标是使构建端到端流应用程序更容易,这些应用程序以一致和容错的方式与存储、服务系统和批处理作业集成。事件时间水印:此更改允许应用程序在事件被认为"太迟"时向系统提示,并允许系统绑定内部状态跟踪延迟事件。支持所有基于文件的格式和所有基于文件的功能:通过这些改进,结构化流媒体可以读写所有基于文件的格式,例如JSON、text、Avro、CSV。此外,所有基于文件的功能(例如分区文件和bucketing)在所有格式上都受支持。apachekafka0.10:这增加了对kafka0.10的本地支持,包括手动分配起始偏移量和速率限制。流媒体应用程序全天候连续运行,对底层系统的可见性和可管理性提出了严格的要求。为此,Spark 2.1增加了以下功能:GUID:添加一个GUID,可用于在重新启动时标识流式查询。向前兼容和人类可读的检查点日志:现在所有检查点日志都使用稳定的JSON格式,这允许用户将流查询从Spark 2.1升级到Spark的未来版本。此外,日志格式的设计使得它可以很容易地被人检查,以获得运行系统的可见性。改进了查询状态的报告:查询状态API已经更新,根据我们自己的生产经验,包括了当前查询状态和历史进度的更多信息。在Databricks,我们虔诚地相信dogfooding。使用spark2.1的候选版本,我们移植了一些内部数据管道,并与一些客户合作,使用结构化流传输移植他们的生产管道。在接下来的几周里,我们将发布一系列关于结构化流媒体的各个方面的博客文章,以及我们的经验。敬请期待更深入的潜水。SQL和核心API自Spark 2.0发布以来,Spark现在是大数据领域功能最丰富、最符合标准的SQL查询引擎之一。它可以连接到各种数据源,并执行SQL-2003功能集,如分析函数和子查询。Spark 2.1增加了许多SQL功能:表值函数:Spark 2.1引入了表值函数(TVF)的概念,TVF是一个返回关系或一组行的函数。第一个内置表值函数是"range",一个返回行范围的TVF。例如,"selectcount(*)FROM range(1000)"将返回1000。增强的分区列推断:增加了对推断分区列的日期、时间戳和十进制类型的支持。增强的内联表:Spark 2.0增加了对内联表的支持,而Spark 2.1增强了内联表,支持使用任何可折叠表达式和自动强制类型指定值。例如,"SELECT*FROM VALUES(1,"one"),(1+1,"two")"从包含2行的表中进行选择。Null排序:用户现在可以指定如何对Null进行排序,例如,在order BY子句中,先为Null,后为Null。二进制文字:X'1C7'表示二进制文字(字节数组)0x1c7。减号:添加了对减号集操作的支持,这相当于EXCEPT DISTINCT。to-json和from-json函数:一直以来,Spark自动推断json数据集的类型。我们还看到了许多数据集,其中一个或两个字符串列是JSON编码的。两个新函数用于JSON列。交叉连接提示:当处理大量数据时,交叉连接非常昂贵,用户通常不想实际执行交叉连接。Spark 2.1现成地禁用交叉连接支持,除非用户显式地使用"交叉连接"语法发出查询。也就是说,Spark 2.1将拒绝"从连接b中选择",但允许"从交叉连接b中选择"。这样Spark就可以防止用户在拍摄时自拍。要禁用此行为,请更改"spark.sql.crossJoin.enabled"到"true"。Spark 2.1还对核心数据集/数据帧API进行了许多改进,主要是在类型化API中:克yValueGroupedDataset.mapValues:用户现在可以映射KeyValueGroupedDataset上的值,而无需修改键。Ke的部分聚集yValueGroupedDataset.reduceGroups:reduceGroups现在支持部分聚合,以减少网络中无序传输的数据量。编码器java.util.Map: java.util.Map类型可以自动推断为火花图类型。MLlib和SparkRSpark 2.1的最后一个主要变化集中在高级分析上。MLlib和GraphX中添加了以下新算法:局部敏感哈希多类Logistic回归个性化PageRankSpark 2.1还增加了对SparkR中以下分布式算法的支持:肌萎缩性脊髓侧索硬化症等张回归多层感知器分类器随机森林高斯混合模型LDA公司多类Logistic回归坡度增强树随着这些算法的加入,SparkR已经成为R上最全面的分布式机器学习库。这篇博文只介绍了这个版本中的一些主要特性。您可以转到官方发行说明查看完整的更改列表。我们将在未来几周发布更多关于这些新功能的详细信息。请关注Databricks博客,了解更多关于spark2.1的信息。如果您想尝试这些新特性,可以在Databricks中使用spark2.1,同时使用旧版本的Spark。在这里注册一个免费试用帐户。免费试用Databricks。今天就开始吧