_经济数据库_三重好礼

小七 2019年10月25日 21:23 141 0

第十届星火峰会创下出席人数的又一纪录

在我们的第10届Spark峰会上，我们从Databricks的演讲者那里收集了精选的集锦，这对ApacheSpark社区和用户来说是一个里程碑。很快，所有会议和幻灯片的报道将在Spark Summit 2017网站上公布。第一天：开发者日在2.2及更高版本中扩展apachespark用例apachespark已经走了很长的路，它正在通过创新来处理新的前沿，以迎接新的工作负载。在他的主题演讲中，Apache Spark Matei Zaharia分享了Spark在社区中的采用率；Spark的理念和一些值得注意的用例；并从Databricks揭示了两个新的开源项目来处理新的工作负载：深度学习和结构化流式处理通用可用性和性能。软件工程师Tim Hunter演示了如何在数据块上使用深度学习管道，而流媒体团队的团队负责人Michael Armbrust在一个现场演示中展示了结构化流的性能和对数据块的连续处理。查看本次演讲的幻灯片深入研究sparksql的Catalyst优化器从开发人员的第一天开始，尹怀带我们深入了解SQL如何优化查询的内部过程，无论是用SQL、Dataframe还是Dataset编写的查询结果都是一样的：为执行而优化代码。但是有助于这种优化的是结构化api，它向优化器发出需要完成的任务而不是如何完成的信号。因此，Catalyst优化器可以重新安排更高级别的操作，如项目、聚合、联接或筛选以实现最佳执行。查看本次演讲的幻灯片用apachespark挑战Web规模的图形分析孟祥瑞告诉我们，社交网络和物联网的兴起需要具有数十亿个顶点和边的复杂网络规模的图形。孟说，解决这个问题的一种方法是使用GraphFrames，它实现了图形查询和模式匹配，以支持和简化Spark-SQL类的图形分析查询。查看本次演讲的幻灯片 apachespark MLlib的过去轨迹和新方向约瑟夫·布拉德利在演讲中提出了三个基本问题：什么？那又怎么样？现在呢？。通过给我们一个Spark的MLlib演化轨迹，他谈到了MLlib为什么在机器学习实践者中成为流行框架的一些关键里程碑。通过其持续增长和贡献者社区的不断扩大，MLlib的主要项目已经涵盖了大多数流行用例的算法。查看本次演讲的幻灯片如何使用ApacheSparkMLLIB 2.x生成机器学习模型数据科学家喜欢通过转换海量数据集和使用流行工具apachespark构建大规模的机器学习模型来理解和探索数据。但在生产中部署它们可能是一个挑战。Richard Garris通过研究一些实际案例来展示如何部署这些模型。查看本次演讲的幻灯片 apachespark2.2中基于成本的优化器在这一深入的技术跟踪中，Sameer Agarwal和Wenchen Fan（Databricks）、Ron Hu和Zhenhua Wang（华为）探讨了ApacheSpark2.2基于成本的优化器是如何工作的，以及如何使用统计收集方案来制定执行计划，以生成可执行的紧凑代码。查看本次演讲的幻灯片使用结构化流和Kinesis Firehose的实时机器学习分析最流行的apachespark用例之一是构建实时高级分析应用程序。Databricks Solutions的架构师Caryl Yuhas和Myles Baker在演讲的整个过程中介绍了如何构建示例应用程序，并分享了从使用许多应用程序中学到的宝贵技巧和技巧。查看本次演讲的幻灯片在apachespark中使用结构化流处理简单、可伸缩、容错的流在Matei Zaharia的主题演讲和Michael Armbrust关于结构化流媒体性能的演示的后续深入讨论中，Michael Armbrust和如来达斯在其技术细节中详细阐述了结构化流的各个方面，特别是复杂的数据、复杂的工作负载，复杂系统可以以面向事务的方式用于其接收器和源。简而言之，对于结构化流媒体，作为开发人员，您不必担心底层流的复杂性。相反，作为开发人员，您应该专注于编写简单的查询，并让Spark不断更新答案。查看本次演讲的幻灯片使用apachespark构建健壮的ETL管道虽然稳定和健壮的ETL管道是任何企业数据处理中的关键组件，但它们的可靠性和弹性同样重要。小李提供了最佳和安全的实践来实现这两个目标。通过使用spark2.2（以及未来的spark2.3）中的特性，他分享了一些技巧和技巧：如何处理脏记录或坏记录；如何处理多行JSON/CSV支持，以及如何在SQL中使用高阶函数。查看本次演讲的幻灯片第二天：企业日利用统一分析平台加速创新Databricks的首席执行官兼联合创始人阿里戈德西以他的主题演讲开始第二天的工作。他讲述了apachespark的持续增长是如何产生大量创新用例的，从客户流失分析到基因组测序。因此，这些应用程序很难开发，因为它们通常涉及到由不同领域专家组成的竖井式团队；它们复杂的工作流程从数据访问到洞察力耗时太长；而且基础架构成本高昂，难以管理。为了解决这些问题，Ali解释了Databricks统一分析平台的三大支柱：人员、流程和平台（或系统）。然后，他分享了来自惠普和壳牌的三个客户案例，重点介绍了Databricks Unified Analytics平台如何通过统一数据科学、工程和业务来帮助企业加速创新。最后，Ali宣布推出Databricks Serverless，通过允许大量用户在单个自动管理的资源池上运行工作负载，消除了基础设施的复杂性，并以较低的成本将Spark的部署速度提高了10倍。软件工程师gregowen演示了Databricks的无服务器功能，如细粒度安全性、性能优势和自动伸缩。Greg展示了如何自动管理资源，以确保所有用户在共享无服务器池时都是孤立的，不会受到其他用户的影响。查看本次演讲的幻灯片机器学习创新炉边聊天Ben Lorica与Ion Stoica（Databricks的联合创始人兼执行主席；UC Berkeley RISELab的联合创始人）和Matei Zaharia（Databricks的联合创始人和首席技术专家；Stanford CS的助理教授）坐在一起。apachespark生态系统中的机器学习正在飞速发展。新的项目正在出现，以帮助将其提升到一个新的水平。Ion Stoica和Matei Zaharia讨论了他们各自来自RISELab和DAWN的两个新计划是如何解决和接近实时智能决策的新需求的。在这里观看小组的完整录音数据块中云存储上的事务I/ODatabricks的软件工程师Eric Liang讨论了从成本、sla（可用性和耐用性）和性能三个方面来评估HDFS到S3。然后，他深入探讨了使用apachespark编写云存储的挑战，并与Hadoop分享了Databricks I/O（DBIO）的事务提交基准。查看本次演讲的幻灯片从管道到炼油厂：用apachespark构建复杂的数据应用程序apachespark为批处理、流和即席交互分析提供了强大的构建块。然而，用户在组合一个可能涉及数百个转换步骤的一致管道时面临挑战，尤其是在面临快速迭代的需求时。Databricks软件工程师TimHunter通过函数式编程的视角来探讨这些问题。查看本次演讲的幻灯片利用深度学习框架，通过3D基因组结构和调控环境识别疾病相关的遗传变异数据分析在生命科学行业正呈爆炸式增长，特别是在基因组学领域，生物技术公司正试图从基因组数据中收集见解，以加速药物创新。这是一场精彩的演讲，由贝斯以色列女执事医疗中心老年医学中心主任徐怡湘博士和Databricks的常驻解决方案设计师黄永胜（音译）主持，展示了apachespark如何应用深度学习来预测疾病相关变体的功能，从而影响新药干预的发展。查看本次演讲的幻灯片apachesparkr幕后黑手：如何调试SparkR应用程序在数据科学轨道的最后一天，Databricks的软件工程师和数据科学家Hossein Falaki深入探讨了SparkR的内部工作原理、体系结构、性能问题等。然后，他浏览了真实的SparkR用例，展示了如何根据自己的经验消除常见错误。查看本次演讲的幻灯片来自Apache Spark生态系统的声音使用人工智能对活动数据提供见解和建议在挤满了人的房间前，Salesforce的Alexis Roos和Sammy Nammari分享了Databricks和Apache Spark power Einstein的方式，后者是Salesforce平台中内置的人工智能功能。在Databricks中的一个实时演示中，他们展示了如何将活动数据与上下文和CRM数据结合起来，为客户提供实时的见解和建议。查看本次演讲的幻灯片机器学习在建筑中的应用Autodesk在建筑、工程和建筑软件领域处于领先地位。他们开发了一套用于施工的云产品，使得在整个建筑施工生命周期中几乎可以随时随地访问与项目相关的数据。Charis Kaskiris和Subham Goel讨论了Databricks和apachespark如何让他们的数据科学团队更有效地工作

本文地址： /zhuji/3391.html