分布式存储_vps虚拟主机管理系统_最新活动

小七 2019年10月25日 21:23 141 0

2019年欧洲Spark+AI峰会数据工程讲座指南

数据工程是现代数据团队的支柱。没有高质量的数据，数据科学、机器学习和分析的下游项目很快就会遇到瓶颈。在Spark+AI Europe的数据工程课程中，了解如何保持数据管道的稳定和数据湖的可靠性，社区演示者将讨论他们在Apache SparkTM和Delta Lake上的经验和最佳实践。您将学习如何应对最棘手的数据挑战。以下是一些要查看的会话：数据再现性，审计，即时回滚，以及三角洲湖时间旅行的其他应用时间旅行现在可以与三角洲湖！我们将向您展示如何使用Delta Lake"回到过去"，以及为什么它是如此强大的功能。通过演示、笔记本和代码，您将了解几种常见的应用程序以及它们如何改进数据工程管道。在本演示中，您将了解Delta Lake面临的挑战，Delta Lake如何工作，以及您可以利用Delta的时间旅行功能做些什么。在三角洲湖面构建数据密集型分析应用程序各类企业都在建设数据湖。然而，数据湖仍然受到用户采用率低和数据质量差的困扰，导致了较低的投资回报率。对于您的用例来说，BI工具可能还不够。我们将探索使用各种后端技术、体系结构和框架构建分析应用程序的各种选项。该课程包括基于Play Framework构建的演示分析应用程序（用于后端）、React（用于前端）、用于从Delta表中摄取数据的结构化流，以及基于分析数据的实时数据ML预测的实时查询分析具有变更数据捕获功能的现代ETL管道在这篇演讲中，您将了解GetYourGuide如何从头开始构建一个全新的ETL管道，使用Debezium、Kafka、Spark和flow。以前的遗留系统很容易出错，容易破坏模式更改，并导致许多不眠之夜。在这节课中，我们将回顾我们使用数据块构建和开发ETL管道以减少操作时间的步骤。由于建立了这些新的管道，我们现在可以每天多次刷新我们的数据湖，为我们的用户提供比以前更新鲜的数据。Zalando的Spark Streaming数据仓库Zalando的人工智能驱动的产品和分布式的分析数据集市不能等待长时间运行的、难以恢复的、单块的批处理作业，这些作业需要通宵计算已经过时的数据。本次讲座将讨论我们的数据平台面临的挑战，并深入探讨如何将集成与浓缩分离，提供流和快照，以及将数据提供给分布式数据集市。我们还将讨论Delta的MERGE命令、scalaapi与sparksql以及模式演化的经验教训和最佳实践，并为类似的用例提供更多的见解和指导。利用三角洲湖简化和缩放数据工程管线这篇演讲将回顾通过不同质量级别转换数据的数据工程管道过程。管道通常使用与不同质量级别相对应的表，逐步向数据添加结构，从数据摄取（"青铜"表）到转换/功能工程（"银色"表）到机器学习培训或预测（"黄金"表）。这种"多跳"架构允许数据工程师构建一条管道，从原始数据开始作为"单一真实源"，所有数据都从中流出。在这节课中，我们将演示如何使用Delta Lake构建可伸缩的数据工程数据管道。下一步是什么查看2019年欧洲Spark+AI峰会的完整会议列表，包括架构、开发人员、数据和ML用例等。阅读更多：阅读：2019欧洲Spark+AI峰会精彩主题演讲阅读：2019年欧洲Spark+AI峰会人工智能、数据科学、机器学习和深度学习讲座指南阅读：欧洲Spark+AI峰会上的开发者、深度探索和apachespark教程讲座指南免费试用Databricks。今天就开始吧

本文地址： /zhuji/3258.html