云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

网站建设_阿里云ntp服务器_免费6个月

小七 141 0

Apache Spark:2014年回顾与2015年重点展望

2014年是Apache Spark取得巨大增长的一年。它成为大数据生态系统中最活跃的开源项目,拥有400多个贡献者,并被许多平台供应商采用,包括所有主要的Hadoop发行商。通过我们在Databricks的产品、合作伙伴和培训生态系统,我们还看到200多家企业在生产中部署Spark。为了帮助Spark实现这一增长,Databricks在整个项目中进行了广泛的工作,以改进功能和易用性。事实上,虽然社区已经发展了很多,但是去年添加到Spark的代码中有75%来自Databricks。在这篇文章中,我们想重点介绍一下我们在2014年为Spark所做的一些补充,并对我们2015年的优先事项进行了预览。一般来说,我们开发Spark的方法是双重的:提高核心引擎的可用性和性能,并在顶部扩展库的功能,例如流、SQL和机器学习。因为所有这些库使用相同的核心引擎,所以它们在可部署性、性能等方面都得到了相同的改进。2014年主要增加的火花在核心引擎方面,我们在2014年所做的主要改进如下:语言支持:许多企业的一个主要需求是让Spark使用他们用户最熟悉的语言,比如Java和Scala。Databricks领导了将Spark与java8集成的工作,为Java用户提供了更简单的语法,并对Python API进行了主要的添加,包括性能改进以及与MLlib、Spark流和Spark SQL的Python接口。生产管理:我们帮助为Spark standalone主机添加了高可用性功能(允许通过ZooKeeper恢复主机)和Spark流媒体(允许可靠地存储来自不可靠数据源的输入,以便以后进行故障恢复)。我们还与社区合作,在YARN上动态生成Spark scale,从而提高资源利用率,并帮助与Hadoop生态系统特性(如Hadoop安全模型)集成。性能和稳定性:我们重写了Spark的shuffle和network层,以提供更高的性能,并利用这项工作打破了使用Spark进行排序的世界纪录,在每节点性能方面超过了之前基于Hadoop的记录30倍。更广泛地说,我们已经做了广泛的工作,使Spark操作符在磁盘上运行得更好,允许在从PB到MB的任何规模上都有出色的性能。在库方面,到目前为止,我们在Spark的标准库中增长最快。Databricks的贡献如下:sparksql:我们为结构化数据提供了一个新的模块,使Spark与Apache配置单元、Parquet和JSON等数据源一起使用变得更加容易,并为MicroStrategy、Qlik和Tableau等BI工具提供了快速的SQL连接。通过sparksql,开发人员和分析师现在可以更轻松地利用Spark集群。机器学习库:Databricks为MLlib(Spark的机器学习库)贡献了多种新算法和优化,使一些任务的速度提高了5倍。我们还提供了一个统计库作为一个新的高级管道API,使编写完整的机器学习应用程序更容易。图形处理:我们与加州大学伯克利分校合作,在Spark中添加GraphX作为标准的图形分析库,使用户可以访问各种图形处理算法。spark1.0中的API稳定性:在一个更技术化但非常重要的层面上,我们与社区一起为spark1.x定义了API稳定性保证,这意味着今天针对Spark编写的应用程序将在未来的版本上继续运行。对于企业和开发人员来说,这是一个至关重要的特性,因为它允许应用程序跨供应商移植到Spark的未来版本中。回顾过去,有点难以想象,一年前,Spark没有内置的BI连接、丰富的监控功能,也没有今天它所包含的高级别库的一半左右。尽管如此,这是快速增长项目的移动速度。我们很高兴能继续与社区合作,带来更多精彩的功能。下一步是什么尽管2014年对Spark来说是一个伟大的一年,但我们知道,我们仅仅是在企业使用Spark和大数据的开始。在Databricks,我们专注于2015年Spark的几项主要举措:支持大规模数据科学。2015年,Spark将通过为统计和分析处理提供更高级别、更强大的API,扩大对数据科学家的关注。SparkR项目允许使用来自R的Spark,正在迅速成熟,将SparkR并入Spark的工作已经在进行中。我们还引入了一个数据帧库,用于Spark的所有语言API(Java、Scala、Python和R)以及MLlib中的机器学习管道API,旨在与数据帧交互操作。数据帧库使处理数据集,无论大小,都能为广大用户所接受。丰富的数据源集成。数据管理生态系统是各种数据源和汇的所在地。我们为Spark SQL开发的可插拔数据源API的工作将使Spark连接到许多传统的企业数据源,以及新一轮的大数据/NoSQL存储系统。连接到JDBC、HBase和DBF文件的工作已经在进行中。为了展示来自更广泛社区的数据源和其他Spark集成,我们最近还创建了Spark packages,一个跟踪Spark可用的第三方库的社区索引。Spark packages目前拥有超过30个库;我们预计它将在2015年大幅增长。使用Databricks云简化部署。我们在Databricks的主要目标仍然是简化大数据。这不仅仅是为我们的用户设计简洁、优雅的API,还为我们的用户提供了一个无障碍的运行时环境。有了Databricks Cloud,我们让用户在几分钟内就可以轻松地开始使用Spark和大数据,而不需要传统的大数据项目需要几个月的设置。当然,您也可以期待"更多的相同",并通过Spark继续致力于性能和功能。如果您想了解更多关于Spark最新使用案例和开发的信息,请注册参加3月份在纽约市举行的Spark Summit East。会议议程最近公布了,这将是我们迄今为止最好的社区会议,来自医疗、金融和交通等行业的高质量会谈。免费试用Databricks。今天就开始吧