云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

网站服务器_王者荣耀数据库_高性能

小七 141 0

宣布Apache Spark 1.3!

今天我很高兴地宣布ApacheSpark1.3的正式发布!apachespark1.3引入了广受期待的dataframeapi,它是Spark的RDD抽象的一个改进,旨在简化和快速地处理大型数据集。apachespark1.3还拥有大量的改进,包括流、ML和SQL。这个版本已经发布在今天的apachespark网站上。在接下来的几周里,我们将发布深度概述文章,涵盖Spark的新功能。此版本的一些突出功能包括:一种新的数据帧API我们最近宣布的DataFrameAPI正式发布在ApacheSpark1.3中。数据帧发展了Spark的RDD模型,使得使用结构化数据集的操作变得更快更容易。它们受Pandas和R数据帧的启发,并与之完全互操作,可在Spark的Java、Scala和Python API以及即将发布的(未发布的)rapi中使用。数据帧引入了新的简化运算符,用于过滤、聚合和投影大型数据集。在内部,DataFrames利用sparksql逻辑优化器智能地规划操作的物理执行,以便在大型数据集上运行良好。这种规划一直渗透到物理存储中,在物理存储中,根据用户程序的分析应用诸如谓词下推之类的优化。阅读SQL编程指南中有关数据帧API的更多信息。#从JSON数据集构造数据帧。用户=上下文.load("s3n://path/to/用户.json","json")#创建一个只包含"年轻用户"的新数据帧杨=用户.filter(用户.年龄从印象中选择计数(*)对Spark包的内置支持我们早些时候宣布在2014年底为Spark创建一个社区包存储库。今天Spark包有45个社区项目,面向Spark开发人员,包括数据源集成、测试实用程序和教程。为了让Spark用户更容易使用包,apachespark1.3支持将已发布的包放入sparkshell或带有单个标志的程序中。#用一个包裹发射火花弹./bin/spark shell——包databricks/spark-平均值:0.2对于开发人员来说,Spark包还创建了一个SBT插件来简化发布包,并引入了新版本的自动Spark兼容性检查。Spark流媒体中较低级别的Kafka支持在过去的几个版本中,Kafka已经成为Spark流媒体的一个流行输入源。apachespark1.3添加了一个新的Kakfa流源,该源利用Kafka的重播功能提供可靠的交付语义,而无需使用预写日志。它还提供了一些原语,为具有强烈一致性需求的应用程序提供了一次保证。Kafka支持在这个版本中添加了一个Python API,以及将来创建Python API的新原语。有关Spark流特性的完整列表,请参阅上游发行说明。MLlib中的新算法apachespark1.3提供了一组丰富的新算法。ldicha(ldicha)是mlicha模型中第一个出现的潜在分配算法。我们将在后续文章中更详细地记录LDA。Spark的logistic回归已推广到多项式logistic回归,用于多类分类。这个版本还添加了通过高斯混合模型和幂迭代聚类改进的聚类,以及通过FP-growth挖掘频繁项集的功能。最后,介绍了一种有效的分布式线性代数块矩阵抽象方法。在完整的发行说明中添加并讨论了其他一些算法和实用程序。相关深度博客文章:Spark 1.3中Spark SQL的新增功能LDA主题建模:MLlib满足GraphX卡夫卡集成火花流的改进本文只触及了apachespark1.3中有趣特性的表面。总的来说,这个版本包含了来自176个贡献者的1000多个补丁,是我们迄今为止最大的一个。请访问官方发行说明以了解有关此版本的更多信息,并查看Databricks博客,以获取有关未来几周主要功能的更详细的帖子!免费试用Databricks。今天就开始吧