云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

域名备案_一元域名注册_多少钱

小七 141 0

在apachespark预览版中与社区共享知识:最终指南

apachespark在过去的几年里取得了巨大的发展。这次Spark峰会的规模和规模真实地反映了一次又一次的创新,这一创新使自己成为了ApacheSpark项目的一部分。数以百计的贡献者共同努力,使Spark成为推动数千个组织的技术中的一个惊人的部分,Databricks在Spark中发起了许多关键工作,包括Project Tungton、SparkR、Spark SQL和DataFrame API,以及结构化流媒体,我们将继续为项目贡献大量的代码和培育社区。虽然快速的创新步伐推动了项目的发展,但要跟上所有这些改进的步伐是一个挑战。为了解决这个问题,我们很乐意介绍Spark:权威指南。与O'Reilly Media合作,我们将在今年晚些时候出版这本关于Spark的综合性新书。为了庆祝有史以来规模最大的Spark峰会,我们将免费向社区发布几个章节。另外,如果你使用O'Reilly网站上授权的折扣码,你可以得到50%的电子书折扣和40%的印刷版折扣!来源:O'Reilly我们努力为您撰写一本关于Spark的资料性书籍,重点是浓缩社区对ApacheSpark的开发知识。书中的部分前几章是"Spark简介";目标读者是从SQL分析师到数据工程师的任何人。本节介绍了每个人都应该了解的关于apachespark的简单概念,并介绍了Spark生态系统的不同方面。本书的第二部分深入探讨了由Catalyst引擎驱动的Spark的结构化api。您将看到数据源、转换、数据帧和数据集转换以及两者之间的所有内容。这包括SQL、Python和Scala中的示例,供人们学习。为了显示实际上建立了什么数据文件的基础,本书的第三部分讨论了SARS的低级API,包括那些需要一些高级功能或需要在RDDS上构建的遗留代码的RDDS。本书的第四部分深入探讨了Spark如何在集群上实际运行,并讨论了一些优化、监视、调优和调试的选项。最后,第五部分和第六部分分别深入研究了结构化流和机器学习。我们讨论了是什么使结构化流成为如此强大的范例,以及Spark通过MLlib(Spark的机器学习库)为最终用户提供的工具和算法的数量。我们甚至包括图形分析和张量框架深入学习的部分。书的最后一部分更全面地讨论了生态系统。我们将讨论Spark如何与不同的语言、生态系统和Spark周围的广大社区协作。入门为了您对本书的初步浏览,我们将免费提供该书内容的预览版,供任何人下载和阅读。此样本为当前最终指南的未编辑样本。我们还计划在Databricks文档中添加很多这样的内容,这样Databricks的客户就可以随时获得最新的参考资料。我们已经包含了大量的笔记本示例,您可以立即开始使用;但是,我们将在完成本书时继续添加这些示例。免费试用Databricks。今天就开始吧