网站服务器_王者荣耀数据库_高性能

小七 2019年10月25日 21:23 141 0

宣布Apache Spark 1.3！

今天我很高兴地宣布ApacheSpark1.3的正式发布！apachespark1.3引入了广受期待的dataframeapi，它是Spark的RDD抽象的一个改进，旨在简化和快速地处理大型数据集。apachespark1.3还拥有大量的改进，包括流、ML和SQL。这个版本已经发布在今天的apachespark网站上。在接下来的几周里，我们将发布深度概述文章，涵盖Spark的新功能。此版本的一些突出功能包括：一种新的数据帧API我们最近宣布的DataFrameAPI正式发布在ApacheSpark1.3中。数据帧发展了Spark的RDD模型，使得使用结构化数据集的操作变得更快更容易。它们受Pandas和R数据帧的启发，并与之完全互操作，可在Spark的Java、Scala和Python API以及即将发布的（未发布的）rapi中使用。数据帧引入了新的简化运算符，用于过滤、聚合和投影大型数据集。在内部，DataFrames利用sparksql逻辑优化器智能地规划操作的物理执行，以便在大型数据集上运行良好。这种规划一直渗透到物理存储中，在物理存储中，根据用户程序的分析应用诸如谓词下推之类的优化。阅读SQL编程指南中有关数据帧API的更多信息。#从JSON数据集构造数据帧。用户=上下文.load（"s3n://path/to/用户.json"，"json"）#创建一个只包含"年轻用户"的新数据帧杨=用户.filter(用户.年龄从印象中选择计数（*）对Spark包的内置支持我们早些时候宣布在2014年底为Spark创建一个社区包存储库。今天Spark包有45个社区项目，面向Spark开发人员，包括数据源集成、测试实用程序和教程。为了让Spark用户更容易使用包，apachespark1.3支持将已发布的包放入sparkshell或带有单个标志的程序中。#用一个包裹发射火花弹./bin/spark shell——包databricks/spark-平均值：0.2对于开发人员来说，Spark包还创建了一个SBT插件来简化发布包，并引入了新版本的自动Spark兼容性检查。Spark流媒体中较低级别的Kafka支持在过去的几个版本中，Kafka已经成为Spark流媒体的一个流行输入源。apachespark1.3添加了一个新的Kakfa流源，该源利用Kafka的重播功能提供可靠的交付语义，而无需使用预写日志。它还提供了一些原语，为具有强烈一致性需求的应用程序提供了一次保证。Kafka支持在这个版本中添加了一个Python API，以及将来创建Python API的新原语。有关Spark流特性的完整列表，请参阅上游发行说明。MLlib中的新算法apachespark1.3提供了一组丰富的新算法。ldicha（ldicha）是mlicha模型中第一个出现的潜在分配算法。我们将在后续文章中更详细地记录LDA。Spark的logistic回归已推广到多项式logistic回归，用于多类分类。这个版本还添加了通过高斯混合模型和幂迭代聚类改进的聚类，以及通过FP-growth挖掘频繁项集的功能。最后，介绍了一种有效的分布式线性代数块矩阵抽象方法。在完整的发行说明中添加并讨论了其他一些算法和实用程序。相关深度博客文章：Spark 1.3中Spark SQL的新增功能LDA主题建模：MLlib满足GraphX卡夫卡集成火花流的改进本文只触及了apachespark1.3中有趣特性的表面。总的来说，这个版本包含了来自176个贡献者的1000多个补丁，是我们迄今为止最大的一个。请访问官方发行说明以了解有关此版本的更多信息，并查看Databricks博客，以获取有关未来几周主要功能的更详细的帖子！免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3643.html