云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

分布式数据库_数据库驱动包_企业级

小七 141 0

开发人员指南,ApacheSpark用例,以及Spark+AI峰会的深度讨论

apachespark通过统一新的工作负载,通过创新来应对新的前沿。这使开发人员能够将数据和人工智能结合起来开发智能应用程序。开发人员来参加这次峰会,不仅仅是为了听到贡献者的创新。他们来分享他们的用例,经验,并吸收知识。@马泰伊·扎哈里亚刚刚在@SparkŠu summit的主题演讲上宣布支持《星火2.3》中的库伯内特斯pic.twitter.com/XGbRZbg3wW-Yann Vanderstockt(@yannvds)2017年10月25日在最后的博客中,我们将关注的焦点转移到这些开发者身上,他们不仅对Spark生态系统做出了贡献,而且在各自的行业中大规模使用Spark。让我们从使用Uber公司的apachespark进行大规模的特性聚合开始,它使几千个特性能够解释基于ML的决策和风险分析。开发人员Pulkit Bhanot和Amit Nene将揭示数据的转型历程,展示其架构和Spark生态系统,并分享聚合特性如何缩短机器学习模型的周转时间。截至2018年,Facebook拥有近21.8亿用户,占全球人口的三分之一。这种全局使用会生成大量需要使用可靠体系结构进行处理的数据。Facebook软件工程师Brian Cho和Ergin Seyfe将分享他们在数据达到300TB时如何处理shuffle读取。他们将讨论什么样的架构可以支持这样的规模。在他们的演讲中可以找到答案:SOS:优化Shuffle I/O并利用分解存储和计算机体系结构。在本节课中,"uber数据处理"一词的含义非常贴切:使用Apache Spark高效地测试CI管道:将520亿个事件/天的流与40 TB/小时的批处理混合在一起。在这个关于scale的Spark的精彩演讲中,Pure Storage的软件工程师Ivan Jibaja将分享如何为scale上的流作业和批处理作业编写单个应用程序。另外,学习如何大规模地构建最先进的持续集成(CI)管道,正如他的标题所示。现在,人类基因组及其测序一直处于健康和生命科学(HLS)科学家的前沿。得益于大规模大数据分析技术的进步,特别是Spark处理大规模分布式数据的能力以及廉价的云存储。来自Databricks的软件工程师ramsriharsha和frankaustinnothaft有一个新的解决方案,可以在apachespark的云端构建基因组ETL管道。作为生物化学家、分子生物学家或HLS行业的开发人员,你会想参加他们的会议:在云中缩放基因组学管道。对于有兴趣了解apachespark2.3中Spark的datasourcev2api演进背后的设计动机的开发人员来说,Databricks Spark提交者和撰稿人范文琛和Gengliang Wang为您提供了这个深入的讨论。其新的源和接收器API的一个显著用途是支持结构化流媒体的连续处理,这将在Jose Torres的另一个会议上讨论。与结构化流相关的是另一个身临其境的谈话,从Spark提交者如来达斯(TathagataDas)深入探讨结构化流中的状态流处理。Apache对Bernetes 2社区的贡献很大。有了apachespark中的Kubernetes本地调度器,现在可以在本机运行Spark作业。在他们的会议中,ApacheSpark在Kubernetes集群上,Anirudh Ramanathan和Sean Suchter不仅将讨论如何以Kubernetes本地方式构建现代数据管道,而且还将解开ApacheSpark中本地调度器的未来路线图。spark2.3中的另一个社区贡献是Pyspark中的Pandas UDF,开发人员Jin Lin将在他的会议上讨论这个问题:向量化UDF:Pyspark和Pyspark的可伸缩分析用Spark大规模处理数据似乎是上述会议的主题。以苹果为例:他们对数据处理速度和规模的要求取代了传统的MapReduce工作负载,并用Spark进行了扩充。在本次演讲中,苹果公司的apachespark、软件开发人员sammaclennan和Vishwanath Lakkundi将讨论规模化工作的挑战,以及从管理大型多租户集群(包括exabyte存储和百万核)中吸取的经验教训。最后,为了理解什么是区块链以及为什么它很重要,麻省理工学院的《技术评论》(Technology Review)在这一主题上专门发行了一期季刊。在我们信任的区块链中,它的作者认为,你必须超越疯狂的猜测,专注于下面正在构建的东西。更棒的是,在软件开发人员Jiri Kremser的Apache Spark session中分析区块链交易时,您可以了解到底层基础设施及其令人敬畏的技术是如何建立在Apache Spark之上的:至少可以说,这是一次精彩的演讲!下一步是什么利用此促销代码JulesPicks享受300美元的折扣,现在就注册。来看看Spark、Data和AI的最新进展,在旧金山见!阅读更多找出参加Spark+AI峰会的5个理由。读一些新曲目中的精选曲目看看TensorFlow会话中的几个精选阅读人工智能、机器学习和数据科学课程中的一些精选免费试用Databricks。今天就开始吧