网站建设_阿里云ntp服务器_免费6个月

小七 2019年10月25日 21:23 141 0

Apache Spark：2014年回顾与2015年重点展望

2014年是Apache Spark取得巨大增长的一年。它成为大数据生态系统中最活跃的开源项目，拥有400多个贡献者，并被许多平台供应商采用，包括所有主要的Hadoop发行商。通过我们在Databricks的产品、合作伙伴和培训生态系统，我们还看到200多家企业在生产中部署Spark。为了帮助Spark实现这一增长，Databricks在整个项目中进行了广泛的工作，以改进功能和易用性。事实上，虽然社区已经发展了很多，但是去年添加到Spark的代码中有75%来自Databricks。在这篇文章中，我们想重点介绍一下我们在2014年为Spark所做的一些补充，并对我们2015年的优先事项进行了预览。一般来说，我们开发Spark的方法是双重的：提高核心引擎的可用性和性能，并在顶部扩展库的功能，例如流、SQL和机器学习。因为所有这些库使用相同的核心引擎，所以它们在可部署性、性能等方面都得到了相同的改进。2014年主要增加的火花在核心引擎方面，我们在2014年所做的主要改进如下：语言支持：许多企业的一个主要需求是让Spark使用他们用户最熟悉的语言，比如Java和Scala。Databricks领导了将Spark与java8集成的工作，为Java用户提供了更简单的语法，并对Python API进行了主要的添加，包括性能改进以及与MLlib、Spark流和Spark SQL的Python接口。生产管理：我们帮助为Spark standalone主机添加了高可用性功能（允许通过ZooKeeper恢复主机）和Spark流媒体（允许可靠地存储来自不可靠数据源的输入，以便以后进行故障恢复）。我们还与社区合作，在YARN上动态生成Spark scale，从而提高资源利用率，并帮助与Hadoop生态系统特性（如Hadoop安全模型）集成。性能和稳定性：我们重写了Spark的shuffle和network层，以提供更高的性能，并利用这项工作打破了使用Spark进行排序的世界纪录，在每节点性能方面超过了之前基于Hadoop的记录30倍。更广泛地说，我们已经做了广泛的工作，使Spark操作符在磁盘上运行得更好，允许在从PB到MB的任何规模上都有出色的性能。在库方面，到目前为止，我们在Spark的标准库中增长最快。Databricks的贡献如下：sparksql：我们为结构化数据提供了一个新的模块，使Spark与Apache配置单元、Parquet和JSON等数据源一起使用变得更加容易，并为MicroStrategy、Qlik和Tableau等BI工具提供了快速的SQL连接。通过sparksql，开发人员和分析师现在可以更轻松地利用Spark集群。机器学习库：Databricks为MLlib（Spark的机器学习库）贡献了多种新算法和优化，使一些任务的速度提高了5倍。我们还提供了一个统计库作为一个新的高级管道API，使编写完整的机器学习应用程序更容易。图形处理：我们与加州大学伯克利分校合作，在Spark中添加GraphX作为标准的图形分析库，使用户可以访问各种图形处理算法。spark1.0中的API稳定性：在一个更技术化但非常重要的层面上，我们与社区一起为spark1.x定义了API稳定性保证，这意味着今天针对Spark编写的应用程序将在未来的版本上继续运行。对于企业和开发人员来说，这是一个至关重要的特性，因为它允许应用程序跨供应商移植到Spark的未来版本中。回顾过去，有点难以想象，一年前，Spark没有内置的BI连接、丰富的监控功能，也没有今天它所包含的高级别库的一半左右。尽管如此，这是快速增长项目的移动速度。我们很高兴能继续与社区合作，带来更多精彩的功能。下一步是什么尽管2014年对Spark来说是一个伟大的一年，但我们知道，我们仅仅是在企业使用Spark和大数据的开始。在Databricks，我们专注于2015年Spark的几项主要举措：支持大规模数据科学。2015年，Spark将通过为统计和分析处理提供更高级别、更强大的API，扩大对数据科学家的关注。SparkR项目允许使用来自R的Spark，正在迅速成熟，将SparkR并入Spark的工作已经在进行中。我们还引入了一个数据帧库，用于Spark的所有语言API（Java、Scala、Python和R）以及MLlib中的机器学习管道API，旨在与数据帧交互操作。数据帧库使处理数据集，无论大小，都能为广大用户所接受。丰富的数据源集成。数据管理生态系统是各种数据源和汇的所在地。我们为Spark SQL开发的可插拔数据源API的工作将使Spark连接到许多传统的企业数据源，以及新一轮的大数据/NoSQL存储系统。连接到JDBC、HBase和DBF文件的工作已经在进行中。为了展示来自更广泛社区的数据源和其他Spark集成，我们最近还创建了Spark packages，一个跟踪Spark可用的第三方库的社区索引。Spark packages目前拥有超过30个库；我们预计它将在2015年大幅增长。使用Databricks云简化部署。我们在Databricks的主要目标仍然是简化大数据。这不仅仅是为我们的用户设计简洁、优雅的API，还为我们的用户提供了一个无障碍的运行时环境。有了Databricks Cloud，我们让用户在几分钟内就可以轻松地开始使用Spark和大数据，而不需要传统的大数据项目需要几个月的设置。当然，您也可以期待"更多的相同"，并通过Spark继续致力于性能和功能。如果您想了解更多关于Spark最新使用案例和开发的信息，请注册参加3月份在纽约市举行的Spark Summit East。会议议程最近公布了，这将是我们迄今为止最好的社区会议，来自医疗、金融和交通等行业的高质量会谈。免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3637.html