数据库_阿里云免费域名申请_优惠券

小七 2019年10月25日 21:23 141 0

Spark+AI峰会反思

参加会议的开发人员有很高的期望值：他们将填补什么样的知识空白；他们将带走什么样的创新想法或鼓舞人心的想法；在会议期间和会后，就技术问题与谁联系；他们的专业领域正在出现什么样的技术趋势；他们将建立和培养什么样的偶然联系；什么样的主题会在会议内容中产生共鸣。作为开发者的倡导者，我们通过回顾6月22日至26日举行的Spark+AI峰会，从125多个国家的近7万名注册者中，提出了开发者的观点。作为一个由数据工程师、科学家、架构师和分析师组成的数据团队的一员，您需要了解问题的核心。所以让我们先考虑一下基调。技术要点Databricks的首席执行官兼联合创始人alighodsi提出了为什么数据团队比以往任何时候都更需要走到一起。通过引用当今世界面临的社会和健康危机，他详细阐述了组织中的数据团队如何接受数据+人工智能这一团队运动的理念，并发出了一个号角：释放数据和机器学习的力量。这个统一的主题在产品和开源项目公告、培训课程和许多会议中回响。我们开发人员被技术细节迷住了：我们希望看到体系结构图、一个隐藏的一瞥、代码、笔记本和演示。我们确保我们已经掌握了所有的技术细节，比如Lakehouse是一个建立在Delta Lake之上并与ApacheSpark3.0兼容的新数据范式，它允许数据工程师和数据科学家为各种各样的用例积累大量的结构化、半结构化和非结构化数据。古德西指出，所有归因于数据湖的历史问题，现在都通过建立可靠的三角洲湖泊的"固执己见"标准来解决。最后，我们了解了Delta Lake是如何为处理数据提供事务层的。Databricks的首席架构师兼联合创始人Reynold Xin对一个名为Delta Engine的新组件进行了深入的探讨，他还谈到了如何帮助数据团队解决棘手的数据问题。Delta Engine构建在Apache Spark 3.0之上并与其API兼容，在使用DataFrame API和SQL工作负载时，Delta Engine为Databricks平台上的开发人员提供了"巨大的性能"：使用高级统计信息扩展基于成本的查询优化器和自适应查询执行在C++中添加一个称为光子的本地矢量化执行引擎为Delta Lake存储层实现高IO吞吐量的缓存机制虽然这个引擎没有开发人员api，但是它提供了在Databricks上运行的Spark工作负载的底层加速。然而，对于使用SQL、Spark DataFrames或Koalas的开发人员来说，这是个好消息。Photon是一个专门为性能而构建的本地执行引擎；它利用了数据级和CPU指令级的并行性，利用了现代硬件。用C++编写，它优化了主要由字符串处理和正则表达式组成的现代工作负载。在类似的技术格式下，通过apachespark的创造者之一mateizaharia的镜头，我们回顾了apachespark的10年。Zaharia解释了Spark在每一个版本中是如何改进的—包括来自早期用户和开发人员的反馈；采用新的用例和工作负载，例如加速R和SQL交互查询以及流媒体的增量数据集更新；通过编程语言、机器学习库扩展对Spark的访问，以及高级、结构化的API，并始终将开发人员的需求放在首位，以使Spark的API易于使用。Zaharia与Apache Spark 3.0相关的主要优点包括：Spark SQL（自适应查询执行和动态分区修剪）的显著性能改进符合ANSI SQLPython和PySpark在可用性方面的显著改进以及一个新的Python项目Zen令人印象深刻的3400个Jira问题得到了解决（其中46%是针对Spark SQL）Zaharia注意到一个显著的观察结果：开发者发布的Databricks笔记本中68%的命令是Python的，18%是SQL的，Scala落后于11%。这一观察结果与Spark 3.0对Spark SQL和Python增强的强调相吻合。所有这些不仅仅是一连串的幻灯片；我们看到了代码、拉请求、堆栈跟踪、笔记本、性能改进的有形代码、演示等等。现在就可以免费下载第二版的Spark.3！数据可视化讲述一个故事。Redash加入Databricks带来了一套新的数据可视化功能。对于比Python更精通SQL的数据分析师来说，它使他们能够探索、查询、可视化仪表板，并共享来自许多数据源（包括Delta Lakes）的数据。您可以看到如何使用Redash增强数据可视化。作为一个开源项目，有超过300个贡献者和7000个部署，Redash的收购重申了Databricks对开源开发者社区的承诺。最后，两位主旨演讲通过使用流行的数据团队软件开发工具完成了叙述。首先，Clemens Mewald和Lauren Richie向我们介绍了数据科学家如何使用新引入的Databricks下一代数据科学工作区，使用他们最喜欢的Git存储库，通过一个新概念（项目）进行协作。四个简单的步骤允许您创建一个项目作为Databricks工作区的一部分：创建新项目克隆主Git存储库并创建一个用于协作的分支打开一个Jupyter笔记本（如果存储库中有）到Databricks笔记本编辑器中开始编写代码并与数据团队中的开发人员协作根据需要提取、提交和推送您的代码与笔记本电脑上的Git工作流没有太大不同，这个协作过程现在可以在Databricks工作区的私有预览中使用，在可伸缩的集群上，使您能够访问湖边小屋中的数据，并在项目需要时配置项目范围的Conda环境（即将推出）。第二，这最后一点结束了数据团队如何在MLflow（一个完整的机器学习生命周期的平台）中结合新功能的叙述。Matei Zaharia和Sue Ann Hong介绍了开发商的主要收获：MLflow项目和社区的状态、新特性和未来Databricks为linuxfoundation项目贡献了MLflow，扩展了它的范围，并期望来自更大的机器学习开发人员社区的贡献MLflow on Databricks宣布提供简单的模型服务mlflow1.9版本引入了更强的模型治理，在一些ML库中试验自动登录功能，以及可插拔的部署api总而言之，这些来自开发人员视角的声明让我们对大数据和人工智能领域的新趋势和新模式有了一个了解；它们提供了新的工具、API，并深入了解了数据团队如何能够联合起来解决棘手的数据问题。见面问我任何事让我们把焦点转移到公共开发人员活动上。从这个会议的最初几天起，总会有一个开玩笑的开场会议。会议结束时，气氛中弥漫着兴奋的气氛，会场里的急切心情也显而易见——这一切都是为了接下来几天的主题演讲和散会。这次，我们虚拟地主持了会议。这种渴望也是显而易见的——出席人数和通过虚拟问答小组进行互动。刚刚结束了我们与@dennillee Rob Reed&@lmoroney在SparkAISummit上为社会公益而进行的Brew玩笑和人工智能。巨大的虚拟会议；大量引人入胜的问题；来自全球不同时区的与会者。谢谢大家！#数据团队——斯巴卡峰会。pic.twitter.com/Fe213Nueed-{Jules Damji}

本文地址： /zhuji/2975.html