数据库服务器_谍影重重4百度云_折扣

小七 2019年10月25日 21:23 141 0

2019年Spark+AI峰会数据工程讲座指南

精选新赛道亮点大数据从业者要解决数据质量问题和数据管道的复杂性这是他们存在的祸根。无论您是否拥有高级分析、开发新的机器学习模型、提供运营报告或管理数据基础设施，对数据质量的关注都是一个共同的主题。尤其是数据工程师，他们努力设计和部署健壮的数据管道，以高性能的方式为可靠的数据提供服务，以便他们的组织能够充分利用其宝贵的公司数据资产。认识到数据工程的重要性，今年的Spark+AI峰会包括了一个专门讨论数据工程的新轨道，在这里，演示者将讨论数据工程，并分享他们在ApacheSpark中应用于他们的用例的经验。在SaaS World中使用Apache Spark进行自助式数据准备的谈话课程中，Workday的Pavel Hardak和Li Jianneng Li将介绍他们构建Workday新分析产品Workday Prism analytics所面临的挑战，以及因客户扩展产品边界而引发的现实战争故事。许多人认为apachespark现在是事实上的大数据处理引擎。在Netflix迁移到Apache Spark的演讲中，Netflix的Ryan Blue将谈到Pig和其他MR引擎向Spark的大规模迁移。数据治理是今天必须的。鉴于这一点，在他的演讲中，ApacheSpark数据治理最佳实践从医疗保险和医疗补助服务中心获得的经验教训，NewWave（为近9000万美国人提供服务的医疗保险和医疗补助服务中心的技术合作伙伴）的Donghwa Kim将介绍包括数据安全、数据管理和数据质量管理在内的最佳数据治理实践。对大规模生产的关注永远不会远离数据工程师的心。在Lyft的Apache Spark on Kubernetes的演讲中，来自Lyft的ligao和Rohit Menon将讨论Lyft团队面临的挑战，以及他们为支持Apache Spark on Kubernetes而开发的解决方案。来自Prognos的Matthew Powers将解决另一个关键问题：性能。在为apachespark优化Delta/Parquet数据湖的演讲中，他将概述数据湖设计模式，这些模式可以带来巨大的性能提升。apachespark是一个生机勃勃的项目，随着新版本的发布，可以提供升级的机会，以便可以使用更新的功能。在Airbnb的apachespark会议上，Hao Wan和Liyin Tang分享了他们的主要生产用例，包括流式和批处理应用程序，学到的经验教训和迁移到2.x的技巧。对于欧洲最大的在线时尚零售商Zalando这样的数据驱动型公司来说，快速准确地做出决策是成功的关键。在他们的谈话中，以100个团队为规模的连续应用程序使用Databricks Delta和结构化流媒体，Viacheslav Inozemtsev和Max Schultze描述了如何使用数据湖来保存公司数据，并分享他们在大规模生产和操作数据块以及如何使数据驱动的连续应用现成可行方面的经验。最后一个我想强调的话题是理解查询计划和Spark UI，作者是来自Databricks的ApacheSparkCommitter和PMC成员。他的演讲将讨论如何读取和优化查询计划以提高性能。本文还将介绍apachespark最近和即将发布的主要相关特性。主动学习如果你是一个在实践中学习最好的人，别忘了考虑使用Databricks Delta tutorial构建强健的生产数据管道，这是一个90分钟的会议，由专家主导，旨在介绍下一代统一分析引擎，然后是让与会者在实践中学习的实践练习。与此相关的是，您应该考虑一下ApacheSpark Programming+Delta以及在4月23日（星期二）会议前一天提供的其他几个培训课程。下一步是什么你也可以阅读并从时间表中挑选会话。如果您还没有注册，请使用代码JulesPicks并获得15%的折扣。阅读更多在Spark+AI峰会上，开发者、深度探索和连续流媒体应用程序讲座指南在Spark+AI峰会上，人工智能、机器学习和深度学习讲座指南免费试用Databricks。今天就开始吧

本文地址： /zhuji/3179.html