云数据库_高端网站建设多少钱_年度促销

小七 2019年10月25日 21:23 141 0

在Spark+AI峰会上，开发者、深度探索和连续流媒体应用程序讲座指南

2013年1月，当RedMonk的分析师Stephen O'Grady出版了《新国王：开发者如何征服世界》（thenewkingmakers:Developers throw The World）时，这本书的中心论点（当时和现在）在一个新兴的开源社区中引起了普遍的共鸣。他令人信服地描绘了开发人员"走出阴影，走向光明，成为社会（技术领域）的新影响者"通过选择开源软件，并随时准备在GitHub上研究或贡献源代码，开发人员已经使用开源技术构建了数据产品，这些技术塑造了当今的行业。O'Grady列举了著名的开源例子，这些例子造就了成功的软件公司，以及那些使用开源来构建基础设施堆栈的公司。他断言，开发商会有所作为；他们会制定路线，就像国王的缔造者一样。而今年4月，你可以加入到星火+人工智能2019峰会上。倾听并学习他们的经验，因为他们能洞察如何将数据和人工智能结合起来，构建数据管道，以及使用和扩展apachespark™ 解决棘手的数据问题。在这篇博客中，我们重点介绍了开发人员在将数据和人工智能的巨大价值结合起来的三个方面所做的努力：开发人员、深度挖掘和连续流式应用程序。开发商当然，让我们从开发人员的轨道开始。Netflix的Ryan Blue在他的演讲中，将分享Spark的新DataSourceV2 API，它允许处理来自表和流的数据。通过对sparksql内部的相关更改，V2允许开发人员从相关数据源构建可靠的数据管道。对于编写数据源连接器的Spark开发人员来说，这是必须参加的讨论。在Spark 2.3中得到了增强，列式存储是存储数据帧的有效方法。在Apache Spark的内存存储演进的演讲中，PMC成员、ACM奖得主Kazuaki Ishizaki博士将讨论内存存储的发展：Apache Arrow交换格式和Spark的ColumnVector for Storage如何增强Spark SQL访问和数据帧查询性能。与数据帧和Spark SQL相关，苹果公司的DB Tsai和Cesar Delgado将通过在Spark SQL中使他们成为一流的公民来解决如何处理深层嵌套结构的问题，从而为虚拟助手Apple Siri查询和处理大量数据提供极大的速度。他们将嵌套列作为apachesparksql中的第一个公民的谈话是向开发人员展示如何扩展sparksql的一个很好的例子。这给我们带来了Spark的可扩展性。在吸引开发人员的许多特性中，一个是新的语言绑定或库的可扩展性。微软的Tyson Condie和Rahul Potharaju先生将在他们的演讲中解释他们是如何扩展Spark以包括一个新的.NET绑定：介绍apachespark的.NET绑定。然而，尽管Spark有许多优点、快速的采用和来自更广泛社区的创新，开发人员仍面临一些挑战：如何自动化测试、评估新开发的质量和性能？为此，Messers的Bogdan Ghit和Nicolas Poggi将在他们的演讲中分享他们为Spark SQL构建一个新的测试和验证框架的工作：快速可靠的ApacheSparkSQL引擎。技术深潜自2016年推出以开发者为中心的赛道以来，技术深度跳水赛道在观众中越来越受欢迎。它吸引了数据工程师和数据科学家在这方面获得更深入的经验。例如，今年有三届脱颖而出。首先，数据隐私和保护已成为当务之急，鉴于GDPR，特别是在欧洲。具有极大隐私性的优秀模型：优化ML和AI对敏感数据的讨论来自Swoop的CTO Sim Simeonov将挑战一些技术假设，即隐私在ML模型中断言更糟糕的预测，方法是检查一些生产环境技术来缓解这一概念。其次，Spark SQL是Spark结构化API（包括结构化流）及其高效查询处理引擎的核心。但是是什么使它成为可能呢？引擎盖下面是什么表演？为什么？Databricks的apachespark核心团队的maryannxue和Takuya Ueshin将深入研究管道执行、整个阶段的代码生成、内存管理以及使该引擎具有容错性和性能的内部机制。关于Spark核心内部结构的一个有价值的教训是他们的谈话：深入研究Spark SQL的查询执行引擎。第三，与sparksql密切相关的是扩展Spark以支持处理Spark SQL查询的图形数据，使数据科学家和工程师能够检查和更新图形数据库。Neo4j的开发人员Alastair Green和Martin Junghanns将在他们的演讲中为ApacheSpark提供一种图形查询语言Cyhper：Neo4j Morpheus：在ApacheSpark中用SQL和Cypher交织表和图形数据。连续应用和结构化流媒体结构化流媒体在构建端到端数据管道或编写与数据和其他应用程序实时交互的连续应用程序方面引起了广泛的兴趣。三次深入的谈话会让你深入了解。第一个是来自如来的Databricks：设计结构化流媒体管道如何正确构建。第二个是来自微软的Scott Klein：使用Azure数据库、结构化流和深度学习管道，实时监控1000多个太阳能发电场。第三篇文章来自Eventbrite的brandonhamric:apachespark的近实时分析：摄取、ETL和交互式查询。Apache Spark培训课程最后，查看两个针对大数据开发人员的培训课程，以扩展您对apachespark编程的知识，如何使用Delta构建可伸缩的数据管道，以及性能和tunning分别为：apachespark™ 编程和DELTA和apachespark™ 调整和最佳实践。下一步是什么你也可以仔细阅读并从日程表中挑选会话。在下一个博客中，我们将分享我们从与数据科学和数据工程轨道相关的会议中挑选的内容。如果您还没有注册，请使用此代码JulesPicks并获得15%的折扣。阅读更多阅读：在Spark+AI峰会上，人工智能、机器学习和深度学习讲座指南__免费试用Databricks。今天就开始吧

本文地址： /zhuji/3175.html