分布式数据库_数据库驱动包_企业级

小七 2019年10月25日 21:23 141 0

开发人员指南，ApacheSpark用例，以及Spark+AI峰会的深度讨论

apachespark通过统一新的工作负载，通过创新来应对新的前沿。这使开发人员能够将数据和人工智能结合起来开发智能应用程序。开发人员来参加这次峰会，不仅仅是为了听到贡献者的创新。他们来分享他们的用例，经验，并吸收知识。@马泰伊·扎哈里亚刚刚在@SparkŠu summit的主题演讲上宣布支持《星火2.3》中的库伯内特斯pic.twitter.com/XGbRZbg3wW-Yann Vanderstockt（@yannvds）2017年10月25日在最后的博客中，我们将关注的焦点转移到这些开发者身上，他们不仅对Spark生态系统做出了贡献，而且在各自的行业中大规模使用Spark。让我们从使用Uber公司的apachespark进行大规模的特性聚合开始，它使几千个特性能够解释基于ML的决策和风险分析。开发人员Pulkit Bhanot和Amit Nene将揭示数据的转型历程，展示其架构和Spark生态系统，并分享聚合特性如何缩短机器学习模型的周转时间。截至2018年，Facebook拥有近21.8亿用户，占全球人口的三分之一。这种全局使用会生成大量需要使用可靠体系结构进行处理的数据。Facebook软件工程师Brian Cho和Ergin Seyfe将分享他们在数据达到300TB时如何处理shuffle读取。他们将讨论什么样的架构可以支持这样的规模。在他们的演讲中可以找到答案：SOS：优化Shuffle I/O并利用分解存储和计算机体系结构。在本节课中，"uber数据处理"一词的含义非常贴切：使用Apache Spark高效地测试CI管道：将520亿个事件/天的流与40 TB/小时的批处理混合在一起。在这个关于scale的Spark的精彩演讲中，Pure Storage的软件工程师Ivan Jibaja将分享如何为scale上的流作业和批处理作业编写单个应用程序。另外，学习如何大规模地构建最先进的持续集成（CI）管道，正如他的标题所示。现在，人类基因组及其测序一直处于健康和生命科学（HLS）科学家的前沿。得益于大规模大数据分析技术的进步，特别是Spark处理大规模分布式数据的能力以及廉价的云存储。来自Databricks的软件工程师ramsriharsha和frankaustinnothaft有一个新的解决方案，可以在apachespark的云端构建基因组ETL管道。作为生物化学家、分子生物学家或HLS行业的开发人员，你会想参加他们的会议：在云中缩放基因组学管道。对于有兴趣了解apachespark2.3中Spark的datasourcev2api演进背后的设计动机的开发人员来说，Databricks Spark提交者和撰稿人范文琛和Gengliang Wang为您提供了这个深入的讨论。其新的源和接收器API的一个显著用途是支持结构化流媒体的连续处理，这将在Jose Torres的另一个会议上讨论。与结构化流相关的是另一个身临其境的谈话，从Spark提交者如来达斯（TathagataDas）深入探讨结构化流中的状态流处理。Apache对Bernetes 2社区的贡献很大。有了apachespark中的Kubernetes本地调度器，现在可以在本机运行Spark作业。在他们的会议中，ApacheSpark在Kubernetes集群上，Anirudh Ramanathan和Sean Suchter不仅将讨论如何以Kubernetes本地方式构建现代数据管道，而且还将解开ApacheSpark中本地调度器的未来路线图。spark2.3中的另一个社区贡献是Pyspark中的Pandas UDF，开发人员Jin Lin将在他的会议上讨论这个问题：向量化UDF：Pyspark和Pyspark的可伸缩分析用Spark大规模处理数据似乎是上述会议的主题。以苹果为例：他们对数据处理速度和规模的要求取代了传统的MapReduce工作负载，并用Spark进行了扩充。在本次演讲中，苹果公司的apachespark、软件开发人员sammaclennan和Vishwanath Lakkundi将讨论规模化工作的挑战，以及从管理大型多租户集群（包括exabyte存储和百万核）中吸取的经验教训。最后，为了理解什么是区块链以及为什么它很重要，麻省理工学院的《技术评论》（Technology Review）在这一主题上专门发行了一期季刊。在我们信任的区块链中，它的作者认为，你必须超越疯狂的猜测，专注于下面正在构建的东西。更棒的是，在软件开发人员Jiri Kremser的Apache Spark session中分析区块链交易时，您可以了解到底层基础设施及其令人敬畏的技术是如何建立在Apache Spark之上的：至少可以说，这是一次精彩的演讲！下一步是什么利用此促销代码JulesPicks享受300美元的折扣，现在就注册。来看看Spark、Data和AI的最新进展，在旧金山见！阅读更多找出参加Spark+AI峰会的5个理由。读一些新曲目中的精选曲目看看TensorFlow会话中的几个精选阅读人工智能、机器学习和数据科学课程中的一些精选免费试用Databricks。今天就开始吧

本文地址： /zhuji/3094.html